OpenAI 宣布正在开发名为「忏悔」的创新框架,旨在训练人工智能模型坦诚承认自身不当行为或潜在问题决策。大型语言模型常提供「符合预期」回答,易有虚假陈述,新模型引导其在主要答案后二次回应说明推理过程。「忏悔」机制对二次回应仅基于诚实性评判,鼓励模型坦诚说明包括作弊等潜在问题行为,若诚实坦白会增加奖励。OpenAI 认为该系统对大语言模型训练有帮助,目标是让 AI 更透明,相关技术文档已发布。
行业标签
更多体验
前往小程序
24 小时
资讯推送
进群体验