腾讯混元 AI Infra 团队推出开源生产级高性能 LLM 推理核心算子库 HPC-Ops,真实场景下,混元模型推理 QPM 提升 30%,DeepSeek 模型 QPM 提升 17%。单算子性能方面,Attention 相比 FlashInfer/FlashAttention 最高提升 2.22 倍,GroupGEMM 相比 DeepGEMM 最高提升 1.88 倍,FusedMoE 相比 TensorRT-LLM 最高提升 1.49 倍。
行业标签
更多体验
前往小程序
24 小时
资讯推送
进群体验