Skip to content
字数
130 字
阅读时间
1 分钟

2点记得和子璇说520

kernel 优化

global_histogram_kernel 计算全局直方图,一个线程处理16个数据,但是在读取16个数据的时候,要分warp的读取,就是不能第一个线程读取前16个,第二个线程读取16-32个数据。而是应该第一个线程读取0,32,64,第二个线程读取1,33,65,这样分批次读取。

改完后该函数提速50%。

贡献者

文件历史

撰写