Rename src/CUDA/p3-5.txt to src/CUDA/notes/p3-5.txt

DragonPara · web-flow · commit eed14f489c79 · 2022-05-31T10:51:36.000+08:00
diff --git a/src/CUDA/notes/p3-5.txt b/src/CUDA/notes/p3-5.txt
@@ -1,6 +1,6 @@
 $export CUDA_LAUNCH_BLOCKING=1
-��������֮�����к˺����ĵ��ö��������첽�ģ� ����ͬ���ġ�
-��Ӱ��������ܣ�
+这样设置之后，所有核函数的调用都不再是异步的， 而是同步的。
+会影响程序性能，
 
 error.cuh:
 
@@ -21,29 +21,29 @@ do\
     }\
 }while(0);
 
-CUDA�Դ���鹤�߼� CUDA-MEMCHECK
+CUDA自带检查工具集 CUDA-MEMCHECK
 $ cuda-memcheck --tool memcheck [options] app_name [options]
 $ cuda-memcheck --tool racecheck [options] app_name [options]
 $ cuda-memcheck --tool initcheck [options] app_name [options]
 $ cuda-memcheck --tool synccheck [options] app_name [options]
 
-memcheck���߿���ʡ�� --tool memcheck
-��Ϊ:
+memcheck工具可以省略 --tool memcheck
+变为:
 $ cuda-memcheck [options] app_name [options]
 
-�� $ cuda-memcheck ./a.out
+如 $ cuda-memcheck ./a.out
 
 $ nvprof ./a.out
-�������������ʱ�������������µĴ�����ʾ��
-54 CUDA ��̣�������ʵ��
+如果用上述命令时遇到了类似如下的错误提示：
+54 CUDA 编程：基础与实践
 Unable to profile application. Unified Memory profiling failed
-����Գ��Խ��������Ϊ��
+则可以尝试将运行命令换为：
 $ nvprof --unified-memory-profiling off ./a.out
 
-���GPU���ٱȵİ취��
-�����������豸֮������ݴ��䣻
-��ߺ˺���������ǿ�ȣ�
-����˺����Ĳ��й�ģ��
+提高GPU加速比的办法：
+减少主机与设备之间的数据传输；
+提高核函数的算术强度；
+增大核函数的并行规模。
 
-һ�� GPU һ������פ�����򵽼�ʮ����̡߳����һ���˺����ж�����߳���ĿԶС��������Ļ����Ͳ�����
-�õ��ܸߵļ��ٱȡ�
+一块 GPU 一共可以驻留几万到几十万个线程。如果一个核函数中定义的线程数目远小于这个数的话，就不可能
+得到很高的加速比。