苹果公司提出了一种名为「基于清单反馈的强化学习」(RLCF)的新训练方法,通过生成具体任务清单并进行精确评分,提升大语言模型执行复杂指令的能力。与传统依赖人工点赞的RLHF方法不同,RLCF为每条指令制定详细检查清单,并按0-100分标准评分,指导模型优化。测试结果显示,该方法在多个评测基准上均取得性能提升,尤其在复杂多步骤任务中表现突出。技术上,团队使用大规模模型构建了包含13万条指令的「WildChecklists」数据集,通过逐项评分形成奖励信号。但该方法也存在一定局限,如依赖强大模型和无法替代安全评估机制。专家认为,RLCF为AI训练提供了新思路,未来有望在实际应用中发挥作用。