微软发布开源数学推理模型rStar2-Agent,参数规模为14B,通过智能思考而非延长推理时间,实现与6710亿参数模型相当的性能。该模型具备自主规划、推理和使用代码工具的能力,采用GRPO-RoC算法、高效RL基础设施和多阶段训练方案,在有限资源下实现高效训练,并在多个任务中展现强大泛化能力。
行业标签
更多体验
前往小程序
24 小时
资讯推送
进群体验