摘要: 1. LLM 推理 - TensorRT-LLM 与 Triton Inference Server 随着LLM越来越热门,LLM的推理服务也得到越来越多的关注与探索。在推理框架方面,tensorrt-llm是非常主流的开源框架,在Nvidia GPU上提供了多种优化,加速大语言模型的推理。但是,t 阅读全文
posted @ 2024-06-26 19:38 ZacksTang 阅读(360) 评论(1) 推荐(1) 编辑