add notes in example 3 and 8

RussWong · RussWong · commit 76d97cf8c722 · 2024-07-09T20:06:11.000+08:00
diff --git a/3_vectorAdd/3_1_vectorized_vectorAdd.cu b/3_vectorAdd/3_1_vectorized_vectorAdd.cu
@@ -24,7 +24,7 @@ float4 LoadFromGlobalPTX(float4 *ptr) {
 __global__ void mem_bw (float* A,  float* B, float* C){
     // 泛指当前线程在所有block范围内的全局id
 	int idx = blockIdx.x * blockDim.x + threadIdx.x;
-	// int idx = blockIdx.x * blockDim.x * 4 + threadIdx.x;
+	// int idx = blockIdx.x * blockDim.x * 4 + threadIdx.x; // lesson11里面错写为了这行，请参考熊猫-lesson11和lesson37的勘误.mp4
 	for(int i = idx; i < MEMORY_OFFSET / 4; i += blockDim.x * gridDim.x) {
 		//问题1: 删除43-46行,会发现带宽数据为2666g/S
 		//尝试: 使用nv ptx load global memory指令,结果数据依然没变
diff --git a/8_copy_if.cu b/8_copy_if.cu
@@ -3,9 +3,11 @@
 #include "cuda_runtime.h"
 #include "cooperative_groups.h"
 //#define THREAD_PER_BLOCK 256
-// 注意：本节视频将会在后面重录，现有视频有很多没有讲清楚的地方
-// 这种warp和shared在老的gpu上面会很有成效，但是在turing后的GPU，nvcc编译器优化了很多，所以导致效果不明显
-// cpu
+// 注意：
+// 1.本节的文字解析放在了CUDA_lesson.pdf，如有不懂，可以先看看文字解析
+// 2.这种warp和shared在老的gpu上面会很有成效，但是在turing后的GPU，nvcc编译器优化了很多，所以导致效果不明显
+// 3.我记得在某个CUDA版本之前，atomic是可以保证block或thread严格按照ID串行，但是某个CUDA版本之后，就不行了，至少在现有流行版本不行了，所以会发现CUDA copy if执行后，虽然全都是>0的值，但是顺序和输入不一样
+// cpu实现
 int filter(int *dst, int *src, int n) {
   int nres = 0;
   for (int i = 0; i < n; i++)