阿里通义实验室推出 FIPO 算法，助力大模型推理能力大幅提升

4 月 7 日

阿里通义实验室的 Qwen Pilot 团队推出全新算法 FIPO，旨在突破大模型推理瓶颈。传统强化学习方法难区分关键 Token，FIPO 引入 Future-KL 机制，奖励对后续推理有显著影响的 Token，解决「推理长度停滞」问题。团队还引入符号对数概率差捕捉优化方向。实验显示，FIPO 在 32B 规模纯 RL 设置下超越同规模模型，在零基础模型上突破推理长度瓶颈，提升平均推理长度至 10,000 Token 以上，显著提升推理准确率，展现出在复杂数学推理中的潜力。