bluekds
diff --git a/‎Book_BJ/Chap7/7_4_MatMul/7_4.cu‎
Lines changed: 177 additions & 0 deletions b/‎Book_BJ/Chap7/7_4_MatMul/7_4.cu‎
Lines changed: 177 additions & 0 deletions
diff --git a/‎Book_BJ/Chap7/7_4_MatMul/DS_definitions.h‎
Lines changed: 197 additions & 0 deletions b/‎Book_BJ/Chap7/7_4_MatMul/DS_definitions.h‎
Lines changed: 197 additions & 0 deletions
@@ -0,0 +1,177 @@
+#include "cuda_runtime.h"
+#include "device_launch_parameters.h"
+
+#include "DS_timer.h"
+#include <stdio.h>
+#include <stdlib.h>
+#include <string.h>
+
+#define DO_CPU
+#define DATA_TYEP int
+
+#define SIZE_M (512*2)
+#define SIZE_N (512*4)
+#define SIZE_K (512*2)
+
+#define INDEX2ROW(_index,_width)	(int)((_index)/(_width))
+#define INDEX2COL(_index,_width)	((_index)%(_width))
+#define ID2INDEX(_row,_col, _width) (((_row)*(_width))+(_col))
+
+#define BLOCK_SIZE 16
+
+// Macro function
+//#define KERNEL_MUL(_a,_b) __fmul_rn(_a,_b)
+#define KERNEL_MUL(_a,_b) (_a*_b)
+
+// kernel declarations
+__global__ void MatMul(DATA_TYEP* matA, DATA_TYEP* matB, DATA_TYEP* matC, int m, int n, int k);
+
+template<class T> void allocNinitMem(T** p, long long size, double* memUsage = NULL);
+bool compareMatrix(DATA_TYEP* _A, DATA_TYEP* _B, int _size);
+
+int main(int argc, char* argv[])
+{
+	DS_timer timer(10);
+	timer.setTimerName(0, (char*)"CPU algorithm");
+	timer.setTimerName(1, (char*)"GPU/CUDA algorithm");
+	timer.setTimerName(2, (char*)" - Kernel");
+	timer.setTimerName(4, (char*)" - [Data transter] host->device");
+	timer.setTimerName(5, (char*)" - [Data transfer] device->host");
+
+	// set matrix size
+	int m, n, k;
+
+	if (argc < 3) { m = SIZE_M;	n = SIZE_N;	k = SIZE_K; }
+	else { m = atoi(argv[1]);	n = atoi(argv[2]);	k = atoi(argv[3]); }
+
+	printf("Size : A = (%d by %d), B = (%d by %d), C = (%d by %d)\n", m, k, k, n, m, n);
+
+	int sizeA = m * k;
+	int sizeB = k * n;
+	int sizeC = m * n;
+
+	// Make matrix
+	DATA_TYEP* A = NULL, * B = NULL;
+	allocNinitMem<DATA_TYEP>(&A, sizeA);
+	allocNinitMem<DATA_TYEP>(&B, sizeB);
+
+	DATA_TYEP* Ccpu = NULL, * Cgpu = NULL;
+	allocNinitMem<DATA_TYEP>(&Ccpu, sizeC);
+	allocNinitMem<DATA_TYEP>(&Cgpu, sizeC);
+
+	// generate input matrices
+	for (int i = 0; i < sizeA; i++) A[i] = ((rand() % 10) + ((rand() % 100) / 100.0));
+	for (int i = 0; i < sizeB; i++) B[i] = ((rand() % 10) + ((rand() % 100) / 100.0));
+
+#ifdef DO_CPU // CPU version (OpenMP)
+	timer.onTimer(0);
+#pragma omp parallel for num_threads(4)
+	for (int row = 0; row < m; row++) {
+		for (int col = 0; col < n; col++) {
+			int cIndex = ID2INDEX(row, col, n);
+			Ccpu[cIndex] = 0;
+			for (int i = 0; i < k; i++)
+				Ccpu[cIndex] += (A[ID2INDEX(row, i, k)] * B[ID2INDEX(i, col, n)]);
+		}
+	}
+	printf("CPU finished!\n");
+	timer.offTimer(0);
+#endif
+
+	// GPU setup
+	DATA_TYEP* dA, * dB, * dC;
+
+	cudaMalloc(&dA, sizeA * sizeof(DATA_TYEP));
+	cudaMemset(dA, 0, sizeA * sizeof(DATA_TYEP));
+
+	cudaMalloc(&dB, sizeB * sizeof(DATA_TYEP));
+	cudaMemset(dB, 0, sizeB * sizeof(DATA_TYEP));
+
+	cudaMalloc(&dC, sizeC * sizeof(DATA_TYEP));
+	cudaMemset(dC, 0, sizeC * sizeof(DATA_TYEP));
+
+	timer.onTimer(1);
+
+	timer.onTimer(4);
+	cudaMemcpy(dA, A, sizeA * sizeof(DATA_TYEP), cudaMemcpyHostToDevice);
+	cudaMemcpy(dB, B, sizeB * sizeof(DATA_TYEP), cudaMemcpyHostToDevice);
+	timer.offTimer(4);
+
+	dim3 gridDim(ceil((float)m / BLOCK_SIZE), ceil((float)n / BLOCK_SIZE));
+	dim3 blockDim(BLOCK_SIZE, BLOCK_SIZE);
+
+	printf("Grid(%d, %d), Block(%d, %d)\n", gridDim.x, gridDim.y, blockDim.x, blockDim.y);
+
+	// GPU version
+	timer.onTimer(2);
+	MatMul << < gridDim, blockDim >> > (dA, dB, dC, m, n, k);
+	cudaDeviceSynchronize();
+	timer.offTimer(2);
+
+	timer.onTimer(5);
+	cudaMemcpy(Cgpu, dC, sizeC * sizeof(DATA_TYEP), cudaMemcpyDeviceToHost);
+	timer.offTimer(5);
+
+	timer.offTimer(1);
+
+	cudaFree(dA);
+	cudaFree(dB);
+	cudaFree(dC);
+
+#ifdef DO_CPU
+	printf("[Kernel basic] ");
+	compareMatrix(Ccpu, Cgpu, sizeC);
+#endif
+
+	timer.printTimer(1);
+
+	delete A;
+	delete B;
+	delete Ccpu;
+	delete Cgpu;
+
+	return 0;
+}
+
+bool compareMatrix(DATA_TYEP* _A, DATA_TYEP* _B, int _size)
+{
+	bool isMatched = true;
+	for (int i = 0; i < _size; i++) {
+		if (_A[i] != _B[i]) {
+			printf("[%d] not matched! (%f, %f)\n", i, _A[i], _B[i]);
+			getchar();
+			isMatched = false;
+		}
+	}
+	if (isMatched)
+		printf("Results are matched!\n");
+	else
+		printf("Results are not matched!!!!!!!!!!!\n");
+
+	return isMatched;
+}
+
+__global__ void MatMul(DATA_TYEP* matA, DATA_TYEP* matB, DATA_TYEP* matC, int m, int n, int k)
+{
+	int row = blockDim.x * blockIdx.x + threadIdx.x;
+	int col = blockDim.y * blockIdx.y + threadIdx.y;
+
+	if (row >= m || col >= n)
+		return;
+
+	DATA_TYEP val = 0; // hope to use register
+	for (int i = 0; i < k; i++)
+		val += KERNEL_MUL(matA[ID2INDEX(row, i, k)], matB[ID2INDEX(i, col, n)]);
+
+	matC[ID2INDEX(row, col, n)] = val;
+}
+
+template<class T>
+void allocNinitMem(T** p, long long size, double* memUsage) {
+	*p = new T[size];
+	memset(*p, 0, sizeof(T) * size);
+
+	if (memUsage != NULL) {
+		*memUsage += sizeof(T) * size;
+	}
+}
@@ -0,0 +1,197 @@
+#pragma once
+
+#include <stdio.h>
+#include <stdlib.h>
+#include <string.h>
+#include <iostream>
+
+#define	OS_WINDOWS	0
+#define OS_LINUX	1
+
+#ifdef _WIN32
+#define _TARGET_OS	OS_WINDOWS
+#else
+	#ifndef nullptr
+	#define nullptr NULL
+	#endif
+	#define _TARGET_OS	OS_LINUX
+#endif
+
+/************************************************************************/
+/* OS dependet function                                                 */
+/************************************************************************/
+#if _TARGET_OS == OS_WINDOWS
+//	#define	_SPRINT	sprintf_s
+#define	_STRTOK strtok_s
+
+#define EXIT_WIHT_KEYPRESS {std::cout << "Press any key to exit..."; getchar(); exit(0);}
+
+#define SPLIT_PATH(_path,_result)	\
+	_splitpath_s(_path, _result.drive, 255, _result.dir, 255, _result.filename, 255, _result.ext, 255)
+
+
+#elif _TARGET_OS == OS_LINUX
+#include <libgen.h>
+#include <inttypes.h>
+
+#define	_STRTOK strtok_r
+
+#define EXIT_WIHT_KEYPRESS {std::cout << "Program was terminated!"; exit(0);}
+
+#define sprintf_s	sprintf
+#define scanf_s		scanf
+#define fprintf_s	fprintf
+
+#define __int64		int64_t
+
+#define fopen_s(fp, name, mode) (*fp = fopen(name, mode))
+
+#endif
+
+/************************************************************************/
+/* Defines                                                              */
+/************************************************************************/
+
+// *********** data size
+#define	_1K_	1024
+#define _1M_	(_1K_*_1K_)
+#define _1G_	(_1M_*_1K_)
+
+#define CHAR_STRING_SIZE	255
+
+/************************************************************************/
+/* Type definitions                                                     */
+/************************************************************************/
+typedef unsigned int UINT ;
+
+/************************************************************************/
+/* Macro functions                                                      */
+/************************************************************************/
+#define DS_MEM_DELETE(a)	\
+	if (a != NULL) {		\
+		delete a ;			\
+		a = NULL ;			\
+	}
+
+#define DS_MEM_DELETE_ARRAY(a)	\
+	if (a != NULL) {		\
+	delete [] a ;			\
+	a = NULL ;			\
+	}
+
+#define RANGE_MIN 0
+#define RANGE_MAX 1
+
+#define MATCHED_STRING 0
+
+#ifndef VTK_RANGE_MIN
+#define VTK_RANGE_MIN	0
+#define VTK_RANGE_MAX	1
+#endif
+
+// Print
+#define PRINT_LINE_INFO printf("%s, line %d", __FILE__, __LINE__)
+#define PRINT_ERROR_MSG(_msg) {PRINT_LINE_INFO; printf(" at "); printf(_msg);}
+
+// Single loops
+#define LOOP_I(a) for(int i=0; i<a; i++)
+#define LOOP_J(a) for(int j=0; j<a; j++)
+#define LOOP_K(a) for(int k=0; k<a; k++)
+#define LOOP_INDEX(index, end) for (int index = 0 ; index < end ; index++)
+#define LOOP_INDEX_START_END(index, start, end) for (int index = start ; index < end ; index++)
+
+// Multiple loops
+#define LOOP_J_I(b, a) LOOP_J(b) LOOP_I(a)
+#define LOOP_K_J_I(c,b,a) for(int k=0; k<c; k++) LOOP_J_I(b,a)
+
+//
+#ifndef SWAP
+template<class T>
+void SWAP(T &a, T &b){
+	T tmp = a;
+	a = b;
+	b = tmp;
+}
+#endif
+
+// 
+#ifndef MIN
+#define MIN(a,b) (a > b ? b : a)
+#endif
+
+#ifndef MAX
+#define MAX(a,b) (a > b ? a : b)
+#endif
+
+// Index converter
+
+#define INDEX2X(_ID,_W) (_ID%_W)
+#define INDEX2Y(_ID,_W) (_ID/_W)
+#define INDEX2ID(_ID,_X,_Y,_W) {_X=INDEX2X(_ID,_W);_Y=INDEX2Y(_ID_,_W);}
+#define ID2INDEX(_W,_X,_Y) (_Y*_W+_X)
+#define PTR2ID(_type, _target, _base) ((_type*)_target - (_type*)_base)
+
+// Memory allocation and release
+#ifndef SAFE_DELETE
+#define	SAFE_DELETE(p) {if(p!=NULL) delete p; p=NULL;}
+#endif
+
+#ifndef SAFE_DELETE_ARR
+#define	SAFE_DELETE_ARR(p) {if(p!=NULL) delete [] p; p=NULL;}
+#endif
+
+#define SAFE_NEW(p, type, size) {\
+	try {p = new type[size];}	\
+	catch(std::bad_alloc& exc) \
+	{ printf("[%s, line %d] fail to memory allocation - %.2f MB requested\n", __FILE__, __LINE__, (float)(sizeof(type)*size)/_1M_);	\
+	EXIT_WIHT_KEYPRESS }\
+	}
+
+template<class T>
+void memsetZero(T** p, long long size = 0) {
+	if (*p != NULL)
+		memset(*p, 0, sizeof(T)*size);
+}
+
+template<class T>
+void allocNinitMem(T** p, long long size, double *memUsage = NULL) {
+	*p = new T[size];
+	//SAFE_NEW(*p, T, size);
+	memset(*p, 0, sizeof(T)*size);
+
+	if (memUsage != NULL) {
+		*memUsage += sizeof(T)*size;
+	}
+}
+
+#define SAFE_MEMCPY(_dst, _src, _type, _size){ \
+	if(_dst == nullptr || _src == nullptr ) \
+		printf("[%s, line %d] fail to memcpy (dst = %x, src = %x)\n", __FILE__, __LINE__, _dst, _src);	\
+		exit(-1);	\
+	memcpy(_dst, _src, sizeof(_type)*_size);\
+}
+
+// VTK related
+#ifndef SAFE_DELETE_VTK
+#define SAFE_DELETE_VTK(p) {if(p!=NULL) p->Delete(); p=NULL;}
+#endif
+
+#ifndef VTK_IS_NOERROR
+//#include "DS_common_def.h"
+#define VTK_IS_NOERROR(p) (p->GetErrorCode()==vtkErrorCode::NoError ? true : false)
+#endif
+
+/************************************************************************/
+/* Data structures	                                                    */
+/************************************************************************/
+typedef struct {
+	std::string input;
+	std::string output;
+} nameMatch;
+
+typedef struct {
+	char drive[255];
+	char dir[255];
+	char filename[255];
+	char ext[255];
+} filePathSplit;