字节跳动VAPO框架刷新AIME24记录,大型语言模型推理能力大幅提升
4 月 12 日

字节跳动推出VAPO强化学习训练框架,旨在提升大型语言模型在复杂长任务中的推理能力。VAPO基于PPO框架,融入价值训练、长度自适应广义优势估计及协同增效系统等创新技术。优化后的Qwen2.5-32B模型在AIME24测试中得分从5分提升至60.4分,超越DeepSeek R1和DAPO方法。VAPO在数学推理和长序列任务中表现突出,训练更稳定且高效,多项技术共同作用确保了其优越性能。

专业版功能专业版功能
登录
体验专业版特色功能,拓展更丰富、更全面的相关内容。

行业标签

二维码

更多体验

前往小程序

二维码

24 小时

资讯推送

进群体验

logo
科技新闻,每天 3 分钟