苹果推出AI训练新方法 用任务清单替代人工评分显著提升模型性能
8 月 26 日

苹果公司提出了一种名为「基于清单反馈的强化学习」(RLCF)的新训练方法,通过生成具体任务清单并进行精确评分,提升大语言模型执行复杂指令的能力。与传统依赖人工点赞的RLHF方法不同,RLCF为每条指令制定详细检查清单,并按0-100分标准评分,指导模型优化。测试结果显示,该方法在多个评测基准上均取得性能提升,尤其在复杂多步骤任务中表现突出。技术上,团队使用大规模模型构建了包含13万条指令的「WildChecklists」数据集,通过逐项评分形成奖励信号。但该方法也存在一定局限,如依赖强大模型和无法替代安全评估机制。专家认为,RLCF为AI训练提供了新思路,未来有望在实际应用中发挥作用。

专业版功能专业版功能
登录
体验专业版特色功能,拓展更丰富、更全面的相关内容。

行业标签

二维码

更多体验

前往小程序

二维码

24 小时

资讯推送

进群体验

logo
科技新闻,每天 3 分钟