华为针对 AI 推理加速的关键技术 ——UCM 推理记忆数据管理正式宣布开源,UCM 目前具备稀疏注意力、前缀缓存、预填充卸载、异构 PD 解耦四大能力,可实现首 Token 时延最高降低 90%,系统吞吐最大提升 22 倍,达到 10 倍级上下文窗口扩展。
行业标签
更多体验
前往小程序
24 小时
资讯推送
进群体验