生产者消费者模式下实现多batch延时推理

生产者消费者模式下实现多batch延时推理 需求分析 在实际推理过程中为了实现较高的吞吐量和较高的资源利用率,往往会使用多线程来收集多次请求,并组合形成多batch下的模型推理,a56爆大奖在线娱乐常见的实现便是生产者和消费者模式,其需求如下: 生产者收集提交的请求,消费者对请求进行消费,并将结果返回。 资源是有限
posted @ 2023-10-30 17:57  wildkid1024  阅读(36)  评论(0编辑  收藏  举报