微软发布开源数学推理模型 rStar2-Agent
9 月 2 日

微软发布开源数学推理模型rStar2-Agent,参数规模为14B,通过智能思考而非延长推理时间,实现与6710亿参数模型相当的性能。该模型具备自主规划、推理和使用代码工具的能力,采用GRPO-RoC算法、高效RL基础设施和多阶段训练方案,在有限资源下实现高效训练,并在多个任务中展现强大泛化能力。

专业版功能专业版功能
登录
体验专业版特色功能,拓展更丰富、更全面的相关内容。

行业标签

二维码

更多体验

前往小程序

二维码

24 小时

资讯推送

进群体验

logo
科技新闻,每天 3 分钟