摘要: # vllm架构分析 ## 文件目录结构 benchmark: 测试延迟和吞吐的脚本 csrc: torch下的cuda扩展,一些关键kernels的cpp源码,包含了attention、激活函数、cache等核函数 vllm/core: 关键调度算法,调度策略以及维护cpu和gpu映射的关系表 v 阅读全文
posted @ 2023-09-06 15:42 wildkid1024 阅读(1039) 评论(0) 推荐(0) 编辑