英伟达与 MIT 合作推出 Fast-dLLM 框架，AI 推理速度提升 27.6 倍

2025 年 6 月 3 日

英伟达联合 MIT 与香港大学发布 Fast-dLLM 框架，大幅提升扩散模型推理速度最高至 27.6 倍。该框架通过块状近似 KV 缓存机制和置信度感知并行解码策略，解决计算冗余和依赖冲突问题，在多个基准测试中实现显著加速，同时保持生成质量接近基线水平，为扩散模型的实际应用提供了强大支持。