Blame - arch/powerpc/lib/memcpy_power7.S - codeaurora/cp-linux

blob: 786234fd4e914b87676422ce0cfd86f151088603 [file] [log] [blame]

Kyle Swenson	8d8f654	2021-03-15 11:02:55 -0600	[diff] [blame^]	1	/*
				2	* This program is free software; you can redistribute it and/or modify
				3	* it under the terms of the GNU General Public License as published by
				4	* the Free Software Foundation; either version 2 of the License, or
				5	* (at your option) any later version.
				6	*
				7	* This program is distributed in the hope that it will be useful,
				8	* but WITHOUT ANY WARRANTY; without even the implied warranty of
				9	* MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE. See the
				10	* GNU General Public License for more details.
				11	*
				12	* You should have received a copy of the GNU General Public License
				13	* along with this program; if not, write to the Free Software
				14	* Foundation, Inc., 59 Temple Place - Suite 330, Boston, MA 02111-1307, USA.
				15	*
				16	* Copyright (C) IBM Corporation, 2012
				17	*
				18	* Author: Anton Blanchard <anton@au.ibm.com>
				19	*/
				20	#include <asm/ppc_asm.h>
				21
				22	_GLOBAL(memcpy_power7)
				23
				24	#ifdef __BIG_ENDIAN__
				25	#define LVS(VRT,RA,RB) lvsl VRT,RA,RB
				26	#define VPERM(VRT,VRA,VRB,VRC) vperm VRT,VRA,VRB,VRC
				27	#else
				28	#define LVS(VRT,RA,RB) lvsr VRT,RA,RB
				29	#define VPERM(VRT,VRA,VRB,VRC) vperm VRT,VRB,VRA,VRC
				30	#endif
				31
				32	#ifdef CONFIG_ALTIVEC
				33	cmpldi r5,16
				34	cmpldi cr1,r5,4096
				35
				36	std r3,-STACKFRAMESIZE+STK_REG(R31)(r1)
				37
				38	blt .Lshort_copy
				39	bgt cr1,.Lvmx_copy
				40	#else
				41	cmpldi r5,16
				42
				43	std r3,-STACKFRAMESIZE+STK_REG(R31)(r1)
				44
				45	blt .Lshort_copy
				46	#endif
				47
				48	.Lnonvmx_copy:
				49	/* Get the source 8B aligned */
				50	neg r6,r4
				51	mtocrf 0x01,r6
				52	clrldi r6,r6,(64-3)
				53
				54	bf cr7*4+3,1f
				55	lbz r0,0(r4)
				56	addi r4,r4,1
				57	stb r0,0(r3)
				58	addi r3,r3,1
				59
				60	1: bf cr7*4+2,2f
				61	lhz r0,0(r4)
				62	addi r4,r4,2
				63	sth r0,0(r3)
				64	addi r3,r3,2
				65
				66	2: bf cr7*4+1,3f
				67	lwz r0,0(r4)
				68	addi r4,r4,4
				69	stw r0,0(r3)
				70	addi r3,r3,4
				71
				72	3: sub r5,r5,r6
				73	cmpldi r5,128
				74	blt 5f
				75
				76	mflr r0
				77	stdu r1,-STACKFRAMESIZE(r1)
				78	std r14,STK_REG(R14)(r1)
				79	std r15,STK_REG(R15)(r1)
				80	std r16,STK_REG(R16)(r1)
				81	std r17,STK_REG(R17)(r1)
				82	std r18,STK_REG(R18)(r1)
				83	std r19,STK_REG(R19)(r1)
				84	std r20,STK_REG(R20)(r1)
				85	std r21,STK_REG(R21)(r1)
				86	std r22,STK_REG(R22)(r1)
				87	std r0,STACKFRAMESIZE+16(r1)
				88
				89	srdi r6,r5,7
				90	mtctr r6
				91
				92	/* Now do cacheline (128B) sized loads and stores. */
				93	.align 5
				94	4:
				95	ld r0,0(r4)
				96	ld r6,8(r4)
				97	ld r7,16(r4)
				98	ld r8,24(r4)
				99	ld r9,32(r4)
				100	ld r10,40(r4)
				101	ld r11,48(r4)
				102	ld r12,56(r4)
				103	ld r14,64(r4)
				104	ld r15,72(r4)
				105	ld r16,80(r4)
				106	ld r17,88(r4)
				107	ld r18,96(r4)
				108	ld r19,104(r4)
				109	ld r20,112(r4)
				110	ld r21,120(r4)
				111	addi r4,r4,128
				112	std r0,0(r3)
				113	std r6,8(r3)
				114	std r7,16(r3)
				115	std r8,24(r3)
				116	std r9,32(r3)
				117	std r10,40(r3)
				118	std r11,48(r3)
				119	std r12,56(r3)
				120	std r14,64(r3)
				121	std r15,72(r3)
				122	std r16,80(r3)
				123	std r17,88(r3)
				124	std r18,96(r3)
				125	std r19,104(r3)
				126	std r20,112(r3)
				127	std r21,120(r3)
				128	addi r3,r3,128
				129	bdnz 4b
				130
				131	clrldi r5,r5,(64-7)
				132
				133	ld r14,STK_REG(R14)(r1)
				134	ld r15,STK_REG(R15)(r1)
				135	ld r16,STK_REG(R16)(r1)
				136	ld r17,STK_REG(R17)(r1)
				137	ld r18,STK_REG(R18)(r1)
				138	ld r19,STK_REG(R19)(r1)
				139	ld r20,STK_REG(R20)(r1)
				140	ld r21,STK_REG(R21)(r1)
				141	ld r22,STK_REG(R22)(r1)
				142	addi r1,r1,STACKFRAMESIZE
				143
				144	/* Up to 127B to go */
				145	5: srdi r6,r5,4
				146	mtocrf 0x01,r6
				147
				148	6: bf cr7*4+1,7f
				149	ld r0,0(r4)
				150	ld r6,8(r4)
				151	ld r7,16(r4)
				152	ld r8,24(r4)
				153	ld r9,32(r4)
				154	ld r10,40(r4)
				155	ld r11,48(r4)
				156	ld r12,56(r4)
				157	addi r4,r4,64
				158	std r0,0(r3)
				159	std r6,8(r3)
				160	std r7,16(r3)
				161	std r8,24(r3)
				162	std r9,32(r3)
				163	std r10,40(r3)
				164	std r11,48(r3)
				165	std r12,56(r3)
				166	addi r3,r3,64
				167
				168	/* Up to 63B to go */
				169	7: bf cr7*4+2,8f
				170	ld r0,0(r4)
				171	ld r6,8(r4)
				172	ld r7,16(r4)
				173	ld r8,24(r4)
				174	addi r4,r4,32
				175	std r0,0(r3)
				176	std r6,8(r3)
				177	std r7,16(r3)
				178	std r8,24(r3)
				179	addi r3,r3,32
				180
				181	/* Up to 31B to go */
				182	8: bf cr7*4+3,9f
				183	ld r0,0(r4)
				184	ld r6,8(r4)
				185	addi r4,r4,16
				186	std r0,0(r3)
				187	std r6,8(r3)
				188	addi r3,r3,16
				189
				190	9: clrldi r5,r5,(64-4)
				191
				192	/* Up to 15B to go */
				193	.Lshort_copy:
				194	mtocrf 0x01,r5
				195	bf cr7*4+0,12f
				196	lwz r0,0(r4) /* Less chance of a reject with word ops */
				197	lwz r6,4(r4)
				198	addi r4,r4,8
				199	stw r0,0(r3)
				200	stw r6,4(r3)
				201	addi r3,r3,8
				202
				203	12: bf cr7*4+1,13f
				204	lwz r0,0(r4)
				205	addi r4,r4,4
				206	stw r0,0(r3)
				207	addi r3,r3,4
				208
				209	13: bf cr7*4+2,14f
				210	lhz r0,0(r4)
				211	addi r4,r4,2
				212	sth r0,0(r3)
				213	addi r3,r3,2
				214
				215	14: bf cr7*4+3,15f
				216	lbz r0,0(r4)
				217	stb r0,0(r3)
				218
				219	15: ld r3,-STACKFRAMESIZE+STK_REG(R31)(r1)
				220	blr
				221
				222	.Lunwind_stack_nonvmx_copy:
				223	addi r1,r1,STACKFRAMESIZE
				224	b .Lnonvmx_copy
				225
				226	#ifdef CONFIG_ALTIVEC
				227	.Lvmx_copy:
				228	mflr r0
				229	std r4,-STACKFRAMESIZE+STK_REG(R30)(r1)
				230	std r5,-STACKFRAMESIZE+STK_REG(R29)(r1)
				231	std r0,16(r1)
				232	stdu r1,-STACKFRAMESIZE(r1)
				233	bl enter_vmx_copy
				234	cmpwi cr1,r3,0
				235	ld r0,STACKFRAMESIZE+16(r1)
				236	ld r3,STK_REG(R31)(r1)
				237	ld r4,STK_REG(R30)(r1)
				238	ld r5,STK_REG(R29)(r1)
				239	mtlr r0
				240
				241	/*
				242	* We prefetch both the source and destination using enhanced touch
				243	* instructions. We use a stream ID of 0 for the load side and
				244	* 1 for the store side.
				245	*/
				246	clrrdi r6,r4,7
				247	clrrdi r9,r3,7
				248	ori r9,r9,1 /* stream=1 */
				249
				250	srdi r7,r5,7 /* length in cachelines, capped at 0x3FF */
				251	cmpldi r7,0x3FF
				252	ble 1f
				253	li r7,0x3FF
				254	1: lis r0,0x0E00 /* depth=7 */
				255	sldi r7,r7,7
				256	or r7,r7,r0
				257	ori r10,r7,1 /* stream=1 */
				258
				259	lis r8,0x8000 /* GO=1 */
				260	clrldi r8,r8,32
				261
				262	.machine push
				263	.machine "power4"
				264	dcbt r0,r6,0b01000
				265	dcbt r0,r7,0b01010
				266	dcbtst r0,r9,0b01000
				267	dcbtst r0,r10,0b01010
				268	eieio
				269	dcbt r0,r8,0b01010 /* GO */
				270	.machine pop
				271
				272	beq cr1,.Lunwind_stack_nonvmx_copy
				273
				274	/*
				275	* If source and destination are not relatively aligned we use a
				276	* slower permute loop.
				277	*/
				278	xor r6,r4,r3
				279	rldicl. r6,r6,0,(64-4)
				280	bne .Lvmx_unaligned_copy
				281
				282	/* Get the destination 16B aligned */
				283	neg r6,r3
				284	mtocrf 0x01,r6
				285	clrldi r6,r6,(64-4)
				286
				287	bf cr7*4+3,1f
				288	lbz r0,0(r4)
				289	addi r4,r4,1
				290	stb r0,0(r3)
				291	addi r3,r3,1
				292
				293	1: bf cr7*4+2,2f
				294	lhz r0,0(r4)
				295	addi r4,r4,2
				296	sth r0,0(r3)
				297	addi r3,r3,2
				298
				299	2: bf cr7*4+1,3f
				300	lwz r0,0(r4)
				301	addi r4,r4,4
				302	stw r0,0(r3)
				303	addi r3,r3,4
				304
				305	3: bf cr7*4+0,4f
				306	ld r0,0(r4)
				307	addi r4,r4,8
				308	std r0,0(r3)
				309	addi r3,r3,8
				310
				311	4: sub r5,r5,r6
				312
				313	/* Get the desination 128B aligned */
				314	neg r6,r3
				315	srdi r7,r6,4
				316	mtocrf 0x01,r7
				317	clrldi r6,r6,(64-7)
				318
				319	li r9,16
				320	li r10,32
				321	li r11,48
				322
				323	bf cr7*4+3,5f
				324	lvx v1,r0,r4
				325	addi r4,r4,16
				326	stvx v1,r0,r3
				327	addi r3,r3,16
				328
				329	5: bf cr7*4+2,6f
				330	lvx v1,r0,r4
				331	lvx v0,r4,r9
				332	addi r4,r4,32
				333	stvx v1,r0,r3
				334	stvx v0,r3,r9
				335	addi r3,r3,32
				336
				337	6: bf cr7*4+1,7f
				338	lvx v3,r0,r4
				339	lvx v2,r4,r9
				340	lvx v1,r4,r10
				341	lvx v0,r4,r11
				342	addi r4,r4,64
				343	stvx v3,r0,r3
				344	stvx v2,r3,r9
				345	stvx v1,r3,r10
				346	stvx v0,r3,r11
				347	addi r3,r3,64
				348
				349	7: sub r5,r5,r6
				350	srdi r6,r5,7
				351
				352	std r14,STK_REG(R14)(r1)
				353	std r15,STK_REG(R15)(r1)
				354	std r16,STK_REG(R16)(r1)
				355
				356	li r12,64
				357	li r14,80
				358	li r15,96
				359	li r16,112
				360
				361	mtctr r6
				362
				363	/*
				364	* Now do cacheline sized loads and stores. By this stage the
				365	* cacheline stores are also cacheline aligned.
				366	*/
				367	.align 5
				368	8:
				369	lvx v7,r0,r4
				370	lvx v6,r4,r9
				371	lvx v5,r4,r10
				372	lvx v4,r4,r11
				373	lvx v3,r4,r12
				374	lvx v2,r4,r14
				375	lvx v1,r4,r15
				376	lvx v0,r4,r16
				377	addi r4,r4,128
				378	stvx v7,r0,r3
				379	stvx v6,r3,r9
				380	stvx v5,r3,r10
				381	stvx v4,r3,r11
				382	stvx v3,r3,r12
				383	stvx v2,r3,r14
				384	stvx v1,r3,r15
				385	stvx v0,r3,r16
				386	addi r3,r3,128
				387	bdnz 8b
				388
				389	ld r14,STK_REG(R14)(r1)
				390	ld r15,STK_REG(R15)(r1)
				391	ld r16,STK_REG(R16)(r1)
				392
				393	/* Up to 127B to go */
				394	clrldi r5,r5,(64-7)
				395	srdi r6,r5,4
				396	mtocrf 0x01,r6
				397
				398	bf cr7*4+1,9f
				399	lvx v3,r0,r4
				400	lvx v2,r4,r9
				401	lvx v1,r4,r10
				402	lvx v0,r4,r11
				403	addi r4,r4,64
				404	stvx v3,r0,r3
				405	stvx v2,r3,r9
				406	stvx v1,r3,r10
				407	stvx v0,r3,r11
				408	addi r3,r3,64
				409
				410	9: bf cr7*4+2,10f
				411	lvx v1,r0,r4
				412	lvx v0,r4,r9
				413	addi r4,r4,32
				414	stvx v1,r0,r3
				415	stvx v0,r3,r9
				416	addi r3,r3,32
				417
				418	10: bf cr7*4+3,11f
				419	lvx v1,r0,r4
				420	addi r4,r4,16
				421	stvx v1,r0,r3
				422	addi r3,r3,16
				423
				424	/* Up to 15B to go */
				425	11: clrldi r5,r5,(64-4)
				426	mtocrf 0x01,r5
				427	bf cr7*4+0,12f
				428	ld r0,0(r4)
				429	addi r4,r4,8
				430	std r0,0(r3)
				431	addi r3,r3,8
				432
				433	12: bf cr7*4+1,13f
				434	lwz r0,0(r4)
				435	addi r4,r4,4
				436	stw r0,0(r3)
				437	addi r3,r3,4
				438
				439	13: bf cr7*4+2,14f
				440	lhz r0,0(r4)
				441	addi r4,r4,2
				442	sth r0,0(r3)
				443	addi r3,r3,2
				444
				445	14: bf cr7*4+3,15f
				446	lbz r0,0(r4)
				447	stb r0,0(r3)
				448
				449	15: addi r1,r1,STACKFRAMESIZE
				450	ld r3,-STACKFRAMESIZE+STK_REG(R31)(r1)
				451	b exit_vmx_copy /* tail call optimise */
				452
				453	.Lvmx_unaligned_copy:
				454	/* Get the destination 16B aligned */
				455	neg r6,r3
				456	mtocrf 0x01,r6
				457	clrldi r6,r6,(64-4)
				458
				459	bf cr7*4+3,1f
				460	lbz r0,0(r4)
				461	addi r4,r4,1
				462	stb r0,0(r3)
				463	addi r3,r3,1
				464
				465	1: bf cr7*4+2,2f
				466	lhz r0,0(r4)
				467	addi r4,r4,2
				468	sth r0,0(r3)
				469	addi r3,r3,2
				470
				471	2: bf cr7*4+1,3f
				472	lwz r0,0(r4)
				473	addi r4,r4,4
				474	stw r0,0(r3)
				475	addi r3,r3,4
				476
				477	3: bf cr7*4+0,4f
				478	lwz r0,0(r4) /* Less chance of a reject with word ops */
				479	lwz r7,4(r4)
				480	addi r4,r4,8
				481	stw r0,0(r3)
				482	stw r7,4(r3)
				483	addi r3,r3,8
				484
				485	4: sub r5,r5,r6
				486
				487	/* Get the desination 128B aligned */
				488	neg r6,r3
				489	srdi r7,r6,4
				490	mtocrf 0x01,r7
				491	clrldi r6,r6,(64-7)
				492
				493	li r9,16
				494	li r10,32
				495	li r11,48
				496
				497	LVS(v16,0,r4) /* Setup permute control vector */
				498	lvx v0,0,r4
				499	addi r4,r4,16
				500
				501	bf cr7*4+3,5f
				502	lvx v1,r0,r4
				503	VPERM(v8,v0,v1,v16)
				504	addi r4,r4,16
				505	stvx v8,r0,r3
				506	addi r3,r3,16
				507	vor v0,v1,v1
				508
				509	5: bf cr7*4+2,6f
				510	lvx v1,r0,r4
				511	VPERM(v8,v0,v1,v16)
				512	lvx v0,r4,r9
				513	VPERM(v9,v1,v0,v16)
				514	addi r4,r4,32
				515	stvx v8,r0,r3
				516	stvx v9,r3,r9
				517	addi r3,r3,32
				518
				519	6: bf cr7*4+1,7f
				520	lvx v3,r0,r4
				521	VPERM(v8,v0,v3,v16)
				522	lvx v2,r4,r9
				523	VPERM(v9,v3,v2,v16)
				524	lvx v1,r4,r10
				525	VPERM(v10,v2,v1,v16)
				526	lvx v0,r4,r11
				527	VPERM(v11,v1,v0,v16)
				528	addi r4,r4,64
				529	stvx v8,r0,r3
				530	stvx v9,r3,r9
				531	stvx v10,r3,r10
				532	stvx v11,r3,r11
				533	addi r3,r3,64
				534
				535	7: sub r5,r5,r6
				536	srdi r6,r5,7
				537
				538	std r14,STK_REG(R14)(r1)
				539	std r15,STK_REG(R15)(r1)
				540	std r16,STK_REG(R16)(r1)
				541
				542	li r12,64
				543	li r14,80
				544	li r15,96
				545	li r16,112
				546
				547	mtctr r6
				548
				549	/*
				550	* Now do cacheline sized loads and stores. By this stage the
				551	* cacheline stores are also cacheline aligned.
				552	*/
				553	.align 5
				554	8:
				555	lvx v7,r0,r4
				556	VPERM(v8,v0,v7,v16)
				557	lvx v6,r4,r9
				558	VPERM(v9,v7,v6,v16)
				559	lvx v5,r4,r10
				560	VPERM(v10,v6,v5,v16)
				561	lvx v4,r4,r11
				562	VPERM(v11,v5,v4,v16)
				563	lvx v3,r4,r12
				564	VPERM(v12,v4,v3,v16)
				565	lvx v2,r4,r14
				566	VPERM(v13,v3,v2,v16)
				567	lvx v1,r4,r15
				568	VPERM(v14,v2,v1,v16)
				569	lvx v0,r4,r16
				570	VPERM(v15,v1,v0,v16)
				571	addi r4,r4,128
				572	stvx v8,r0,r3
				573	stvx v9,r3,r9
				574	stvx v10,r3,r10
				575	stvx v11,r3,r11
				576	stvx v12,r3,r12
				577	stvx v13,r3,r14
				578	stvx v14,r3,r15
				579	stvx v15,r3,r16
				580	addi r3,r3,128
				581	bdnz 8b
				582
				583	ld r14,STK_REG(R14)(r1)
				584	ld r15,STK_REG(R15)(r1)
				585	ld r16,STK_REG(R16)(r1)
				586
				587	/* Up to 127B to go */
				588	clrldi r5,r5,(64-7)
				589	srdi r6,r5,4
				590	mtocrf 0x01,r6
				591
				592	bf cr7*4+1,9f
				593	lvx v3,r0,r4
				594	VPERM(v8,v0,v3,v16)
				595	lvx v2,r4,r9
				596	VPERM(v9,v3,v2,v16)
				597	lvx v1,r4,r10
				598	VPERM(v10,v2,v1,v16)
				599	lvx v0,r4,r11
				600	VPERM(v11,v1,v0,v16)
				601	addi r4,r4,64
				602	stvx v8,r0,r3
				603	stvx v9,r3,r9
				604	stvx v10,r3,r10
				605	stvx v11,r3,r11
				606	addi r3,r3,64
				607
				608	9: bf cr7*4+2,10f
				609	lvx v1,r0,r4
				610	VPERM(v8,v0,v1,v16)
				611	lvx v0,r4,r9
				612	VPERM(v9,v1,v0,v16)
				613	addi r4,r4,32
				614	stvx v8,r0,r3
				615	stvx v9,r3,r9
				616	addi r3,r3,32
				617
				618	10: bf cr7*4+3,11f
				619	lvx v1,r0,r4
				620	VPERM(v8,v0,v1,v16)
				621	addi r4,r4,16
				622	stvx v8,r0,r3
				623	addi r3,r3,16
				624
				625	/* Up to 15B to go */
				626	11: clrldi r5,r5,(64-4)
				627	addi r4,r4,-16 /* Unwind the +16 load offset */
				628	mtocrf 0x01,r5
				629	bf cr7*4+0,12f
				630	lwz r0,0(r4) /* Less chance of a reject with word ops */
				631	lwz r6,4(r4)
				632	addi r4,r4,8
				633	stw r0,0(r3)
				634	stw r6,4(r3)
				635	addi r3,r3,8
				636
				637	12: bf cr7*4+1,13f
				638	lwz r0,0(r4)
				639	addi r4,r4,4
				640	stw r0,0(r3)
				641	addi r3,r3,4
				642
				643	13: bf cr7*4+2,14f
				644	lhz r0,0(r4)
				645	addi r4,r4,2
				646	sth r0,0(r3)
				647	addi r3,r3,2
				648
				649	14: bf cr7*4+3,15f
				650	lbz r0,0(r4)
				651	stb r0,0(r3)
				652
				653	15: addi r1,r1,STACKFRAMESIZE
				654	ld r3,-STACKFRAMESIZE+STK_REG(R31)(r1)
				655	b exit_vmx_copy /* tail call optimise */
				656	#endif /* CONFIG_ALTIVEC */