摘要: 接着前面第一篇架构的分析,这篇文章主要分析fastllm中使用cuda-kernels的写法,在fastllm中主要有以下几种使用频率较高的kernel:gemv_int4, gemv_int8, gemm_int8, RMSNorm, softmax,RotatePosition2D,swiglu 阅读全文
posted @ 2023-08-23 19:34 wildkid1024 阅读(96) 评论(0) 推荐(0) 编辑