Updated RandomX to v1.0.4

SChernykh · SChernykh · commit bb6920d6489c · 2019-06-23T13:45:06.000+02:00
diff --git a/README.md b/README.md
@@ -1,15 +1,15 @@
 # RandomX CUDA implementation
 
-This repository contains full RandomX implementation for NVIDIA GPUs. The latest version of RandomX (1.0.3 as of June 1st, 2019) is supported.
+This repository contains full RandomX implementation for NVIDIA GPUs. The latest version of RandomX (1.0.4 as of June 23rd, 2019) is supported.
 
 Note: it's only a benchmark/testing tool, not an actual miner. RandomX hashrate is expected to improve somewhat in the future thanks to further optimizations.
 
 GPUs tested so far:
 
 Model|CryptonightR H/S|RandomX H/S|Relative speed
 -----|---------------|-----------|--------------
-GTX 1660 Ti max overclock (2070/13760 MHz)|626 (98 W)|663 (103 W)|105.9%
-GTX 1660 Ti low power (1785/13760 MHz)|604 (70 W)|560 (70 W)|92.7%
+GTX 1660 Ti max overclock (2070/13760 MHz)|626 (98 W)|671 (103 W)|107.2%
+GTX 1660 Ti low power (1785/13760 MHz)|604 (70 W)|567 (70 W)|93.9%
 GTX 1070 (1850/7600 MHz) [[1]](https://termbin.com/g2z7)|612 (89 W)|609 (108 W)|99.5%
 GTX 1070 Ti (1900/7600 MHz) [[2]](https://termbin.com/iyo1)|625 (97 W)|769 (123 W)|123.0%
 GTX 1080 Ti (1930/10010 MHz)[[3]](https://termbin.com/rva66)|787 (145 W)|1136 (190 W)|144.3%
diff --git a/RandomX b/RandomX
@@ -1 +1 @@
-Subproject commit e4b227010428571b0c4e3209d714bbcfeb943a61
+Subproject commit 77f809e8dbc4d9c4442b07fb4baed9f1929ee750
diff --git a/RandomX_CUDA/aes_cuda.hpp b/RandomX_CUDA/aes_cuda.hpp
@@ -645,30 +645,49 @@ __global__ void fillAes4Rx4(void* state, void* out, uint32_t batch_size)
 	const uint32_t* const t2 = (sub & 1) ? (T + 512) : (T + 1536);
 	const uint32_t* const t3 = (sub & 1) ? (T + 768) : (T + 1280);
 
+	const bool b = (sub < 2);
+	uint32_t k[16];
+	k[ 0] = b ? 0x6421aaddu : 0xb5826f73u;
+	k[ 1] = b ? 0xd1833ddbu : 0xe3d6a7a6u;
+	k[ 2] = b ? 0x2f546d2bu : 0x3d518b6du;
+	k[ 3] = b ? 0x99e5d23fu : 0x229effb4u;
+	k[ 4] = b ? 0xb20e3450u : 0xc7566bf3u;
+	k[ 5] = b ? 0xb6913f55u : 0x9c10b3d9u;
+	k[ 6] = b ? 0x06f79d53u : 0xe9024d4eu;
+	k[ 7] = b ? 0xa5dfcde5u : 0xb272b7d2u;
+	k[ 8] = b ? 0x5c3ed904u : 0xf273c9e7u;
+	k[ 9] = b ? 0x515e7bafu : 0xf765a38bu;
+	k[10] = b ? 0x0aa4679fu : 0x2ba9660au;
+	k[11] = b ? 0x171c02bfu : 0xf63befa7u;
+	k[12] = b ? 0x85623763u : 0x7a7cd609u;
+	k[13] = b ? 0xe78f5d08u : 0x915839deu;
+	k[14] = b ? 0xcd673785u : 0x0c06d1fdu;
+	k[15] = b ? 0xd8ded291u : 0xc0b0762du;
+
 	#pragma unroll(((outputSize % 512) == 0) ? 8 : 2)
 	for (uint32_t i = 0; i < outputSize / sizeof(uint4); i += 4, p += strided ? stride_size : 4)
 	{
 		uint32_t y[4];
 
-		y[0] = t0[get_byte(x[0], 0)] ^ t1[get_byte(x[1], s1)] ^ t2[get_byte(x[2], 16)] ^ t3[get_byte(x[3], s3)] ^ 0xf890465du;
-		y[1] = t0[get_byte(x[1], 0)] ^ t1[get_byte(x[2], s1)] ^ t2[get_byte(x[3], 16)] ^ t3[get_byte(x[0], s3)] ^ 0x7ffbe4a6u;
-		y[2] = t0[get_byte(x[2], 0)] ^ t1[get_byte(x[3], s1)] ^ t2[get_byte(x[0], 16)] ^ t3[get_byte(x[1], s3)] ^ 0x141f82b7u;
-		y[3] = t0[get_byte(x[3], 0)] ^ t1[get_byte(x[0], s1)] ^ t2[get_byte(x[1], 16)] ^ t3[get_byte(x[2], s3)] ^ 0xcf359e95u;
-
-		x[0] = t0[get_byte(y[0], 0)] ^ t1[get_byte(y[1], s1)] ^ t2[get_byte(y[2], 16)] ^ t3[get_byte(y[3], s3)] ^ 0x6a55c450u;
-		x[1] = t0[get_byte(y[1], 0)] ^ t1[get_byte(y[2], s1)] ^ t2[get_byte(y[3], 16)] ^ t3[get_byte(y[0], s3)] ^ 0xfee8278au;
-		x[2] = t0[get_byte(y[2], 0)] ^ t1[get_byte(y[3], s1)] ^ t2[get_byte(y[0], 16)] ^ t3[get_byte(y[1], s3)] ^ 0xbd5c5ac3u;
-		x[3] = t0[get_byte(y[3], 0)] ^ t1[get_byte(y[0], s1)] ^ t2[get_byte(y[1], 16)] ^ t3[get_byte(y[2], s3)] ^ 0x6741ffdcu;
-
-		y[0] = t0[get_byte(x[0], 0)] ^ t1[get_byte(x[1], s1)] ^ t2[get_byte(x[2], 16)] ^ t3[get_byte(x[3], s3)] ^ 0x114c47a4u;
-		y[1] = t0[get_byte(x[1], 0)] ^ t1[get_byte(x[2], s1)] ^ t2[get_byte(x[3], 16)] ^ t3[get_byte(x[0], s3)] ^ 0xd524fde4u;
-		y[2] = t0[get_byte(x[2], 0)] ^ t1[get_byte(x[3], s1)] ^ t2[get_byte(x[0], 16)] ^ t3[get_byte(x[1], s3)] ^ 0xa7279ad2u;
-		y[3] = t0[get_byte(x[3], 0)] ^ t1[get_byte(x[0], s1)] ^ t2[get_byte(x[1], 16)] ^ t3[get_byte(x[2], s3)] ^ 0x3d324aacu;
-
-		x[0] = t0[get_byte(y[0], 0)] ^ t1[get_byte(y[1], s1)] ^ t2[get_byte(y[2], 16)] ^ t3[get_byte(y[3], s3)] ^ 0x810c3a2au;
-		x[1] = t0[get_byte(y[1], 0)] ^ t1[get_byte(y[2], s1)] ^ t2[get_byte(y[3], 16)] ^ t3[get_byte(y[0], s3)] ^ 0x99a9aeffu;
-		x[2] = t0[get_byte(y[2], 0)] ^ t1[get_byte(y[3], s1)] ^ t2[get_byte(y[0], 16)] ^ t3[get_byte(y[1], s3)] ^ 0x42d3dbd9u;
-		x[3] = t0[get_byte(y[3], 0)] ^ t1[get_byte(y[0], s1)] ^ t2[get_byte(y[1], 16)] ^ t3[get_byte(y[2], s3)] ^ 0x76f6db08u;
+		y[0] = t0[get_byte(x[0], 0)] ^ t1[get_byte(x[1], s1)] ^ t2[get_byte(x[2], 16)] ^ t3[get_byte(x[3], s3)] ^ k[ 0];
+		y[1] = t0[get_byte(x[1], 0)] ^ t1[get_byte(x[2], s1)] ^ t2[get_byte(x[3], 16)] ^ t3[get_byte(x[0], s3)] ^ k[ 1];
+		y[2] = t0[get_byte(x[2], 0)] ^ t1[get_byte(x[3], s1)] ^ t2[get_byte(x[0], 16)] ^ t3[get_byte(x[1], s3)] ^ k[ 2];
+		y[3] = t0[get_byte(x[3], 0)] ^ t1[get_byte(x[0], s1)] ^ t2[get_byte(x[1], 16)] ^ t3[get_byte(x[2], s3)] ^ k[ 3];
+
+		x[0] = t0[get_byte(y[0], 0)] ^ t1[get_byte(y[1], s1)] ^ t2[get_byte(y[2], 16)] ^ t3[get_byte(y[3], s3)] ^ k[ 4];
+		x[1] = t0[get_byte(y[1], 0)] ^ t1[get_byte(y[2], s1)] ^ t2[get_byte(y[3], 16)] ^ t3[get_byte(y[0], s3)] ^ k[ 5];
+		x[2] = t0[get_byte(y[2], 0)] ^ t1[get_byte(y[3], s1)] ^ t2[get_byte(y[0], 16)] ^ t3[get_byte(y[1], s3)] ^ k[ 6];
+		x[3] = t0[get_byte(y[3], 0)] ^ t1[get_byte(y[0], s1)] ^ t2[get_byte(y[1], 16)] ^ t3[get_byte(y[2], s3)] ^ k[ 7];
+
+		y[0] = t0[get_byte(x[0], 0)] ^ t1[get_byte(x[1], s1)] ^ t2[get_byte(x[2], 16)] ^ t3[get_byte(x[3], s3)] ^ k[ 8];
+		y[1] = t0[get_byte(x[1], 0)] ^ t1[get_byte(x[2], s1)] ^ t2[get_byte(x[3], 16)] ^ t3[get_byte(x[0], s3)] ^ k[ 9];
+		y[2] = t0[get_byte(x[2], 0)] ^ t1[get_byte(x[3], s1)] ^ t2[get_byte(x[0], 16)] ^ t3[get_byte(x[1], s3)] ^ k[10];
+		y[3] = t0[get_byte(x[3], 0)] ^ t1[get_byte(x[0], s1)] ^ t2[get_byte(x[1], 16)] ^ t3[get_byte(x[2], s3)] ^ k[11];
+
+		x[0] = t0[get_byte(y[0], 0)] ^ t1[get_byte(y[1], s1)] ^ t2[get_byte(y[2], 16)] ^ t3[get_byte(y[3], s3)] ^ k[12];
+		x[1] = t0[get_byte(y[1], 0)] ^ t1[get_byte(y[2], s1)] ^ t2[get_byte(y[3], 16)] ^ t3[get_byte(y[0], s3)] ^ k[13];
+		x[2] = t0[get_byte(y[2], 0)] ^ t1[get_byte(y[3], s1)] ^ t2[get_byte(y[0], 16)] ^ t3[get_byte(y[1], s3)] ^ k[14];
+		x[3] = t0[get_byte(y[3], 0)] ^ t1[get_byte(y[0], s1)] ^ t2[get_byte(y[1], 16)] ^ t3[get_byte(y[2], s3)] ^ k[15];
 
 		*p = *(uint4*)(x);
 	}
diff --git a/RandomX_CUDA/randomx_cuda.hpp b/RandomX_CUDA/randomx_cuda.hpp
@@ -317,6 +317,13 @@ __device__ void print_inst(uint2 inst)
 		}
 		opcode -= RANDOMX_FREQ_IROR_R;
 
+		if (opcode < RANDOMX_FREQ_IROL_R)
+		{
+			printf("%s%sIROL_R   r%u, r%u    ", branch_target, fp_inst, dst, src);
+			break;
+		}
+		opcode -= RANDOMX_FREQ_IROL_R;
+
 		if (opcode < RANDOMX_FREQ_ISWAP_R)
 		{
 			printf("%s%sISWAP_R  r%u, r%u    ", branch_target, fp_inst, dst, src);
@@ -475,13 +482,13 @@ __global__ void __launch_bounds__(32, 16) init_vm(void* entropy_data, void* vm_s
 			}
 			opcode -= RANDOMX_FREQ_IMUL_RCP;
 
-			if (opcode < RANDOMX_FREQ_INEG_R + RANDOMX_FREQ_IXOR_R + RANDOMX_FREQ_IXOR_M + RANDOMX_FREQ_IROR_R)
+			if (opcode < RANDOMX_FREQ_INEG_R + RANDOMX_FREQ_IXOR_R + RANDOMX_FREQ_IXOR_M + RANDOMX_FREQ_IROR_R + RANDOMX_FREQ_IROL_R)
 			{
 				set_byte(registerLastChanged, dst, i);
 				set_byte(registerWasChanged, dst, 1);
 				continue;
 			}
-			opcode -= RANDOMX_FREQ_INEG_R + RANDOMX_FREQ_IXOR_R + RANDOMX_FREQ_IXOR_M + RANDOMX_FREQ_IROR_R;
+			opcode -= RANDOMX_FREQ_INEG_R + RANDOMX_FREQ_IXOR_R + RANDOMX_FREQ_IXOR_M + RANDOMX_FREQ_IROR_R + RANDOMX_FREQ_IROL_R;
 
 			if (opcode < RANDOMX_FREQ_ISWAP_R)
 			{
@@ -703,12 +710,12 @@ __global__ void __launch_bounds__(32, 16) init_vm(void* entropy_data, void* vm_s
 				}
 				opcode -= RANDOMX_FREQ_IXOR_M;
 
-				if (opcode < RANDOMX_FREQ_IROR_R)
+				if (opcode < RANDOMX_FREQ_IROR_R + RANDOMX_FREQ_IROL_R)
 				{
 					latency = reg_read_latency;
 					break;
 				}
-				opcode -= RANDOMX_FREQ_IROR_R;
+				opcode -= RANDOMX_FREQ_IROR_R + RANDOMX_FREQ_IROL_R;
 
 				if (opcode < RANDOMX_FREQ_ISWAP_R)
 				{
@@ -1376,20 +1383,24 @@ __global__ void __launch_bounds__(32, 16) init_vm(void* entropy_data, void* vm_s
 			}
 			opcode -= RANDOMX_FREQ_IXOR_M;
 
-			if (opcode < RANDOMX_FREQ_IROR_R)
+			if (opcode < RANDOMX_FREQ_IROR_R + RANDOMX_FREQ_IROL_R)
 			{
 				inst.x = (dst << DST_OFFSET) | (src << SRC_OFFSET) | (7 << OPCODE_OFFSET);
 				if (src == dst)
 				{
 					inst.x |= (imm_index << IMM_OFFSET) | (1 << SRC_IS_IMM32_OFFSET);
 					if (imm_index < IMM_INDEX_COUNT)
-						imm_buf[imm_index++] = inst.y;
+						imm_buf[imm_index++] = (opcode < RANDOMX_FREQ_IROR_R) ? inst.y : -inst.y;
+				}
+				else if (opcode >= RANDOMX_FREQ_IROR_R)
+				{
+					inst.x |= (1 << NEGATIVE_SRC_OFFSET);
 				}
 
 				*(compiled_program++) = inst.x | num_workers;
 				continue;
 			}
-			opcode -= RANDOMX_FREQ_IROR_R;
+			opcode -= RANDOMX_FREQ_IROR_R + RANDOMX_FREQ_IROL_R;
 
 			if (opcode < RANDOMX_FREQ_ISWAP_R)
 			{
@@ -1848,7 +1859,7 @@ __device__ void inner_loop(
 				}
 				else if (opcode == 12)
 				{
-					asm("// FADD_R, FADD_M, FSUB_R, FSUB_M, FMUL_R (70/256) ------>");
+					asm("// FADD_R, FADD_M, FSUB_R, FSUB_M, FMUL_R (74/256) ------>");
 
 					if (location) src = bit_cast<uint64_t>(__int2double_rn(static_cast<int32_t>(src >> ((sub & 1) * 32))));
 					if (inst & (1 << NEGATIVE_SRC_OFFSET)) src ^= 0x8000000000000000ULL;
@@ -1859,7 +1870,7 @@ __device__ void inner_loop(
 
 					dst = bit_cast<uint64_t>(fma_rnd<ROUNDING_MODE>(a, is_mul ? b : 1.0, is_mul ? 0.0 : b, fprc));
 
-					asm("// <------ FADD_R, FADD_M, FSUB_R, FSUB_M, FMUL_R (70/256)");
+					asm("// <------ FADD_R, FADD_M, FSUB_R, FSUB_M, FMUL_R (74/256)");
 				}
 				else if (opcode == 9)
 				{
@@ -1873,16 +1884,12 @@ __device__ void inner_loop(
 				}
 				else if (opcode == 7)
 				{
-					asm("// IROR_R (10/256) ------>");
-					const uint32_t shift = src & 63;
-					dst = (dst >> shift) | (dst << (64 - shift));
-					asm("// <------ IROR_R (10/256)");
-				}
-				else if (opcode == 11)
-				{
-					asm("// FSWAP_R (8/256) ------>");
-					dst = __shfl_xor_sync(fp_workers_mask, dst, 1, 8);
-					asm("// <------ FSWAP_R (8/256)");
+					asm("// IROR_R, IROL_R (10/256) ------>");
+					const uint32_t shift1 = src & 63;
+					const uint32_t shift2 = 64 - shift1;
+					const bool is_rol = (inst & (1 << NEGATIVE_SRC_OFFSET));
+					dst = (dst >> (is_rol ? shift2 : shift1)) | (dst << (is_rol ? shift1 : shift2));
+					asm("// <------ IROR_R, IROL_R (10/256)");
 				}
 				else if (opcode == 14)
 				{
@@ -1902,6 +1909,12 @@ __device__ void inner_loop(
 					dst = static_cast<uint64_t>(__mul64hi(static_cast<int64_t>(dst), static_cast<int64_t>(src)));
 					asm("// <------ ISMULH_R, ISMULH_M (5/256)");
 				}
+				else if (opcode == 11)
+				{
+					asm("// FSWAP_R (4/256) ------>");
+					dst = __shfl_xor_sync(fp_workers_mask, dst, 1, 8);
+					asm("// <------ FSWAP_R (8/256)");
+				}
 				else if (opcode == 8)
 				{
 					asm("// ISWAP_R (4/256) ------>");

Original file line number	Diff line number	Diff line change
`@@ -317,6 +317,13 @@ __device__ void print_inst(uint2 inst)`
`317`	`317`	`}`
`318`	`318`	`opcode -= RANDOMX_FREQ_IROR_R;`
`319`	`319`
	`320`	`+ if (opcode < RANDOMX_FREQ_IROL_R)`
	`321`	`+ {`
	`322`	`+ printf("%s%sIROL_R r%u, r%u ", branch_target, fp_inst, dst, src);`
	`323`	`+ break;`
	`324`	`+ }`
	`325`	`+ opcode -= RANDOMX_FREQ_IROL_R;`
	`326`	`+`
`320`	`327`	`if (opcode < RANDOMX_FREQ_ISWAP_R)`
`321`	`328`	`{`
`322`	`329`	`printf("%s%sISWAP_R r%u, r%u ", branch_target, fp_inst, dst, src);`
`@@ -475,13 +482,13 @@ __global__ void __launch_bounds__(32, 16) init_vm(void* entropy_data, void* vm_s`
`475`	`482`	`}`
`476`	`483`	`opcode -= RANDOMX_FREQ_IMUL_RCP;`
`477`	`484`
`478`		`- if (opcode < RANDOMX_FREQ_INEG_R + RANDOMX_FREQ_IXOR_R + RANDOMX_FREQ_IXOR_M + RANDOMX_FREQ_IROR_R)`
	`485`	`+ if (opcode < RANDOMX_FREQ_INEG_R + RANDOMX_FREQ_IXOR_R + RANDOMX_FREQ_IXOR_M + RANDOMX_FREQ_IROR_R + RANDOMX_FREQ_IROL_R)`
`479`	`486`	`{`
`480`	`487`	`set_byte(registerLastChanged, dst, i);`
`481`	`488`	`set_byte(registerWasChanged, dst, 1);`
`482`	`489`	`continue;`
`483`	`490`	`}`
`484`		`- opcode -= RANDOMX_FREQ_INEG_R + RANDOMX_FREQ_IXOR_R + RANDOMX_FREQ_IXOR_M + RANDOMX_FREQ_IROR_R;`
	`491`	`+ opcode -= RANDOMX_FREQ_INEG_R + RANDOMX_FREQ_IXOR_R + RANDOMX_FREQ_IXOR_M + RANDOMX_FREQ_IROR_R + RANDOMX_FREQ_IROL_R;`
`485`	`492`
`486`	`493`	`if (opcode < RANDOMX_FREQ_ISWAP_R)`
`487`	`494`	`{`
`@@ -703,12 +710,12 @@ __global__ void __launch_bounds__(32, 16) init_vm(void* entropy_data, void* vm_s`
`703`	`710`	`}`
`704`	`711`	`opcode -= RANDOMX_FREQ_IXOR_M;`
`705`	`712`
`706`		`- if (opcode < RANDOMX_FREQ_IROR_R)`
	`713`	`+ if (opcode < RANDOMX_FREQ_IROR_R + RANDOMX_FREQ_IROL_R)`
`707`	`714`	`{`
`708`	`715`	`latency = reg_read_latency;`
`709`	`716`	`break;`
`710`	`717`	`}`
`711`		`- opcode -= RANDOMX_FREQ_IROR_R;`
	`718`	`+ opcode -= RANDOMX_FREQ_IROR_R + RANDOMX_FREQ_IROL_R;`
`712`	`719`
`713`	`720`	`if (opcode < RANDOMX_FREQ_ISWAP_R)`
`714`	`721`	`{`
`@@ -1376,20 +1383,24 @@ __global__ void __launch_bounds__(32, 16) init_vm(void* entropy_data, void* vm_s`
`1376`	`1383`	`}`
`1377`	`1384`	`opcode -= RANDOMX_FREQ_IXOR_M;`
`1378`	`1385`
`1379`		`- if (opcode < RANDOMX_FREQ_IROR_R)`
	`1386`	`+ if (opcode < RANDOMX_FREQ_IROR_R + RANDOMX_FREQ_IROL_R)`
`1380`	`1387`	`{`
`1381`	`1388`	`inst.x = (dst << DST_OFFSET) \| (src << SRC_OFFSET) \| (7 << OPCODE_OFFSET);`
`1382`	`1389`	`if (src == dst)`
`1383`	`1390`	`{`
`1384`	`1391`	`inst.x \|= (imm_index << IMM_OFFSET) \| (1 << SRC_IS_IMM32_OFFSET);`
`1385`	`1392`	`if (imm_index < IMM_INDEX_COUNT)`
`1386`		`- imm_buf[imm_index++] = inst.y;`
	`1393`	`+ imm_buf[imm_index++] = (opcode < RANDOMX_FREQ_IROR_R) ? inst.y : -inst.y;`
	`1394`	`+ }`
	`1395`	`+ else if (opcode >= RANDOMX_FREQ_IROR_R)`
	`1396`	`+ {`
	`1397`	`+ inst.x \|= (1 << NEGATIVE_SRC_OFFSET);`
`1387`	`1398`	`}`
`1388`	`1399`
`1389`	`1400`	`*(compiled_program++) = inst.x \| num_workers;`
`1390`	`1401`	`continue;`
`1391`	`1402`	`}`
`1392`		`- opcode -= RANDOMX_FREQ_IROR_R;`
	`1403`	`+ opcode -= RANDOMX_FREQ_IROR_R + RANDOMX_FREQ_IROL_R;`
`1393`	`1404`
`1394`	`1405`	`if (opcode < RANDOMX_FREQ_ISWAP_R)`
`1395`	`1406`	`{`
`@@ -1848,7 +1859,7 @@ __device__ void inner_loop(`
`1848`	`1859`	`}`
`1849`	`1860`	`else if (opcode == 12)`
`1850`	`1861`	`{`
`1851`		`- asm("// FADD_R, FADD_M, FSUB_R, FSUB_M, FMUL_R (70/256) ------>");`
	`1862`	`+ asm("// FADD_R, FADD_M, FSUB_R, FSUB_M, FMUL_R (74/256) ------>");`
`1852`	`1863`
`1853`	`1864`	`if (location) src = bit_cast<uint64_t>(__int2double_rn(static_cast<int32_t>(src >> ((sub & 1) * 32))));`
`1854`	`1865`	`if (inst & (1 << NEGATIVE_SRC_OFFSET)) src ^= 0x8000000000000000ULL;`
`@@ -1859,7 +1870,7 @@ __device__ void inner_loop(`
`1859`	`1870`
`1860`	`1871`	`dst = bit_cast<uint64_t>(fma_rnd<ROUNDING_MODE>(a, is_mul ? b : 1.0, is_mul ? 0.0 : b, fprc));`
`1861`	`1872`
`1862`		`- asm("// <------ FADD_R, FADD_M, FSUB_R, FSUB_M, FMUL_R (70/256)");`
	`1873`	`+ asm("// <------ FADD_R, FADD_M, FSUB_R, FSUB_M, FMUL_R (74/256)");`
`1863`	`1874`	`}`
`1864`	`1875`	`else if (opcode == 9)`
`1865`	`1876`	`{`
`@@ -1873,16 +1884,12 @@ __device__ void inner_loop(`
`1873`	`1884`	`}`
`1874`	`1885`	`else if (opcode == 7)`
`1875`	`1886`	`{`
`1876`		`- asm("// IROR_R (10/256) ------>");`
`1877`		`- const uint32_t shift = src & 63;`
`1878`		`- dst = (dst >> shift) \| (dst << (64 - shift));`
`1879`		`- asm("// <------ IROR_R (10/256)");`
`1880`		`- }`
`1881`		`- else if (opcode == 11)`
`1882`		`- {`
`1883`		`- asm("// FSWAP_R (8/256) ------>");`
`1884`		`- dst = __shfl_xor_sync(fp_workers_mask, dst, 1, 8);`
`1885`		`- asm("// <------ FSWAP_R (8/256)");`
	`1887`	`+ asm("// IROR_R, IROL_R (10/256) ------>");`
	`1888`	`+ const uint32_t shift1 = src & 63;`
	`1889`	`+ const uint32_t shift2 = 64 - shift1;`
	`1890`	`+ const bool is_rol = (inst & (1 << NEGATIVE_SRC_OFFSET));`
	`1891`	`+ dst = (dst >> (is_rol ? shift2 : shift1)) \| (dst << (is_rol ? shift1 : shift2));`
	`1892`	`+ asm("// <------ IROR_R, IROL_R (10/256)");`
`1886`	`1893`	`}`
`1887`	`1894`	`else if (opcode == 14)`
`1888`	`1895`	`{`
`@@ -1902,6 +1909,12 @@ __device__ void inner_loop(`
`1902`	`1909`	`dst = static_cast<uint64_t>(__mul64hi(static_cast<int64_t>(dst), static_cast<int64_t>(src)));`
`1903`	`1910`	`asm("// <------ ISMULH_R, ISMULH_M (5/256)");`
`1904`	`1911`	`}`
	`1912`	`+ else if (opcode == 11)`
	`1913`	`+ {`
	`1914`	`+ asm("// FSWAP_R (4/256) ------>");`
	`1915`	`+ dst = __shfl_xor_sync(fp_workers_mask, dst, 1, 8);`
	`1916`	`+ asm("// <------ FSWAP_R (8/256)");`
	`1917`	`+ }`
`1905`	`1918`	`else if (opcode == 8)`
`1906`	`1919`	`{`
`1907`	`1920`	`asm("// ISWAP_R (4/256) ------>");`