阿里通义实验室的 Qwen Pilot 团队推出全新算法 FIPO,旨在突破大模型推理瓶颈。传统强化学习方法难区分关键 Token,FIPO 引入 Future-KL 机制,奖励对后续推理有显著影响的 Token,解决「推理长度停滞」问题。团队还引入符号对数概率差捕捉优化方向。实验显示,FIPO 在 32B 规模纯 RL 设置下超越同规模模型,在零基础模型上突破推理长度瓶颈,提升平均推理长度至 10,000 Token 以上,显著提升推理准确率,展现出在复杂数学推理中的潜力。
行业标签
更多体验
前往小程序
24 小时
资讯推送
进群体验