cuda shared memory bank conflict

cuda shared memory读写带宽大于global memory(10倍以上),读写延时低(20~30倍),例如cuda parllel reduction的例子就先将数据从global memory搬运至shared memory,然后再做运算,从而提高程序性能. 为了提高读写带宽,cu
posted @ 2019-09-19 18:10  灰太狼锅锅  阅读(2086)  评论(0编辑  收藏  举报