​阿里通义实验室推出 FIPO 算法,助力大模型推理能力大幅提升
6 小时前

阿里通义实验室的 Qwen Pilot 团队推出全新算法 FIPO,旨在突破大模型推理瓶颈。传统强化学习方法难区分关键 Token,FIPO 引入 Future-KL 机制,奖励对后续推理有显著影响的 Token,解决「推理长度停滞」问题。团队还引入符号对数概率差捕捉优化方向。实验显示,FIPO 在 32B 规模纯 RL 设置下超越同规模模型,在零基础模型上突破推理长度瓶颈,提升平均推理长度至 10,000 Token 以上,显著提升推理准确率,展现出在复杂数学推理中的潜力。

专业版功能专业版功能
登录
体验专业版特色功能,拓展更丰富、更全面的相关内容。

行业标签

二维码

更多体验

前往小程序

二维码

24 小时

资讯推送

进群体验

logo
科技新闻,每天 3 分钟