苹果推出 AI 训练新方法用任务清单替代人工评分显著提升模型性能

2025 年 8 月 26 日

苹果公司提出了一种名为「基于清单反馈的强化学习」（RLCF）的新训练方法，通过生成具体任务清单并进行精确评分，提升大语言模型执行复杂指令的能力。与传统依赖人工点赞的 RLHF 方法不同，RLCF 为每条指令制定详细检查清单，并按 0-100 分标准评分，指导模型优化。测试结果显示，该方法在多个评测基准上均取得性能提升，尤其在复杂多步骤任务中表现突出。技术上，团队使用大规模模型构建了包含 13 万条指令的「WildChecklists」数据集，通过逐项评分形成奖励信号。但该方法也存在一定局限，如依赖强大模型和无法替代安全评估机制。专家认为，RLCF 为 AI 训练提供了新思路，未来有望在实际应用中发挥作用。

苹果创新「清单法」：用 AI 大模型当「老师」，教小模型更精准执行复杂指令

IT 之家

苹果推出 AI 训练新方法用任务清单替代人工评分显著提升模型性能

aibase

苹果创新「清单法」：用 AI 大模型当「老师」，教小模型更精准执行复杂指令

凤凰科技

2026-04-16

苹果为 Siri 团队启动专属 AI 编程训练营加速语音助手智能化升级

2026-04-07

Mac 跑 AI 模型更方便了，Tiny Corp 称苹果已为英伟达、AMD 外置显卡开绿灯

2025-11-26

苹果 AI 在华推进最新迹象：官网问卷仅支持 +86 手机用户提交反馈

2025-08-26

苹果推出 AI 训练新方法用任务清单替代人工评分显著提升模型性能

2025-08-14

消息称苹果启动 AI 双轨计划，同步推进自研和外援

2025-07-09

苹果酝酿升级 Apple 支持应用：引入 AI 助手，提升客户服务体验

2025-07-01

苹果或弃自研 AI 模型，考虑使用 Anthropic 或 OpenAI 为 Siri 提供技术支持

2025-06-08

苹果发表论文质疑 AI 推理模型：更像是在记忆，而非真正的推理

2025-04-12

苹果国行版 iPhone AI 年中前上市：百度提供智能，阿里负责审核

2025-03-07

苹果在 iOS 18.4 中推出 AI 驱动的应用评论摘要功能

查看更多

专业版功能

登录

体验专业版特色功能，拓展更丰富、更全面的相关内容。