切换主题
2点记得和子璇说520
global_histogram_kernel 计算全局直方图,一个线程处理16个数据,但是在读取16个数据的时候,要分warp的读取,就是不能第一个线程读取前16个,第二个线程读取16-32个数据。而是应该第一个线程读取0,32,64,第二个线程读取1,33,65,这样分批次读取。
global_histogram_kernel
改完后该函数提速50%。
1664e