该专利提出了一种大语言模型的部署方法及系统,通过将预填充阶段和解码阶段分别部署在高性能计算能力和大内存的机器上,实现负载均衡,提高硬件利用率,减少算力闲置,降低延迟,提升吞吐量,并增强系统的扩展性和容错性。
行业标签
更多体验
前往小程序
24 小时
资讯推送
进群体验