AnthropicClaude 模型新增终止对话功能,以应对客户恶意提问
8 月 18 日

Anthropic 公司为其部分大型 AI 模型新增一项功能,允许模型在面对极端有害或辱骂性互动时主动结束对话,旨在保护 AI 自身而非用户。公司强调 Claude 尚无感知能力,但出于对未来模型道德地位的不确定性,设立了「模范福利」项目。该功能仅在极端情况下触发,如涉及未成年人性内容或大规模暴力信息的请求。AI 会在多次引导无效后终止对话,但不会在用户可能面临即时伤害时使用此功能。用户仍可重新开始对话或创建新分支,该功能目前为实验性措施,将持续优化。

专业版功能专业版功能
登录
体验专业版特色功能,拓展更丰富、更全面的相关内容。

行业标签

二维码

更多体验

前往小程序

二维码

24 小时

资讯推送

进群体验

logo
科技新闻,每天 3 分钟