OpenAI 推出 AI「忏悔」框架：旨在训练模型承认不当行为，提高诚实度

2025 年 12 月 4 日

OpenAI 宣布正在开发名为「忏悔」的创新框架，旨在训练人工智能模型坦诚承认自身不当行为或潜在问题决策。大型语言模型常提供「符合预期」回答，易有虚假陈述，新模型引导其在主要答案后二次回应说明推理过程。「忏悔」机制对二次回应仅基于诚实性评判，鼓励模型坦诚说明包括作弊等潜在问题行为，若诚实坦白会增加奖励。OpenAI 认为该系统对大语言模型训练有帮助，目标是让 AI 更透明，相关技术文档已发布。