摘要: 1.重新编码后是如何运算得到最终结果的? (1)如何用int8a56爆大奖在线娱乐float32的计算? 其实就是多了一个放大倍数的问题,举个例子:比如原来float32的计算为:0.1 * 0.2 + 0.3 * 0.4 = 0.14,那么使用int8计算:1*2 + 3*4 = 14,相当于原来的数值都取10倍 阅读全文
posted @ 2019-10-29 11:36 灰太狼锅锅 阅读(5994) 评论(0) 推荐(0) 编辑
摘要: GLobal memory的load/store都要经过L2缓存(在计算能力 < 3的卡还有L1缓存),a56爆大奖在线娱乐目前的主流卡基本上都已经没有L1缓存了,a56爆大奖在线娱乐后面就只以L2缓存为例. 对齐寻址和临近寻址: Global memory在与L2做数据传输的最小单位为32bytes,称为L2 cahce lin 阅读全文
posted @ 2019-09-20 23:41 灰太狼锅锅 阅读(725) 评论(0) 推荐(0) 编辑
摘要: cuda shared memory读写带宽大于global memory(10倍以上),读写延时低(20~30倍),例如cuda parllel reduction的例子就先将数据从global memory搬运至shared memory,然后再做运算,从而提高程序性能. 为了提高读写带宽,cu 阅读全文
posted @ 2019-09-19 18:10 灰太狼锅锅 阅读(2084) 评论(0) 推荐(1) 编辑
摘要: 1.死锁检测 给定一组线程操作锁的流程,判断是否会发生死锁? 例如:有两个线程和两个资源,线程对锁的操作如下: 其中Ta56爆大奖在线娱乐线程id,La56爆大奖在线娱乐锁id,Sa56爆大奖在线娱乐操作(1a56爆大奖在线娱乐获取锁,0a56爆大奖在线娱乐释放锁) T L S 1 1 1(线程1获取1号锁) 2 2 2(线程2获取2号锁) 1 2 1(线程1获取2号锁,保持等 阅读全文
posted @ 2019-09-17 22:05 灰太狼锅锅 阅读(5164) 评论(0) 推荐(0) 编辑
摘要: 求 n = 5x + 2y + z的全部非负整数解.例如n = 5时,有4组解:(0, 0, 5)、(0, 1, 3)、(0, 2, 1)、(1, 0, 0). 1.最普通的解法,三层循环遍历: 优化1:unroll 3rd loop(展开最里层的循环) 优化2:remove if(移除if判断) 阅读全文
posted @ 2019-09-16 21:54 灰太狼锅锅 阅读(593) 评论(0) 推荐(0) 编辑
摘要: 以uint为例,当计算过程中(比如9999^6)产生大于UINT_MAX(2^32 - 1)的值的时候,编译时会产生integer overflow,即数值溢出,最后的结果也被截断. 1.如何检测 :https://www.quora.com/How-do-I-prevent-integer-ove 阅读全文
posted @ 2019-09-16 21:06 灰太狼锅锅 阅读(464) 评论(0) 推荐(0) 编辑
摘要: 参考代码:https://github.com/tensorpack/tensorpack/blob/master/tensorpack/dataflow/parallel.py(目前最新版本已经更名为MultiProcessRunner,在最早的版本叫做MultiProcessPrefetchDa 阅读全文
posted @ 2019-08-31 20:34 灰太狼锅锅 阅读(1173) 评论(0) 推荐(0) 编辑
摘要: 1.Layout Optimizer Tensorflow有几种图优化的方法,其中a56爆大奖在线娱乐较为重要的是layout optimizer,核心思想是调整tensor的layout(NHWC to NCHW),原因在于在较早的cudnn版本中的API是不支持NHWC格式的输入的,目前cudnn7.0版本已经 阅读全文
posted @ 2019-08-31 19:52 灰太狼锅锅 阅读(1043) 评论(0) 推荐(0) 编辑
摘要: 参考文献:https://developer.download.nvidia.cn/assets/cuda/files/reduction.pdf 文中对Scalar Reduction提出了6阶段的优化方法,其中比较关键的思想如下: 1.Avoid warp divergent 2.Sequent 阅读全文
posted @ 2019-08-14 21:11 灰太狼锅锅 阅读(380) 评论(0) 推荐(0) 编辑
摘要: 一、Nccl AllReduce基本原理: allreduce是collective communication中的a56爆大奖在线娱乐,其他种类的还有:Broadcast、Scatter、Gather、Reduce等 具体含义可以参考文档:https://images.nvidia.com/events/sc15 阅读全文
posted @ 2019-08-13 22:25 灰太狼锅锅 阅读(5565) 评论(0) 推荐(0) 编辑