AnthropicClaude 模型新增终止对话功能，以应对客户恶意提问

2025 年 8 月 18 日

Anthropic 公司为其部分大型 AI 模型新增一项功能，允许模型在面对极端有害或辱骂性互动时主动结束对话，旨在保护 AI 自身而非用户。公司强调 Claude 尚无感知能力，但出于对未来模型道德地位的不确定性，设立了「模范福利」项目。该功能仅在极端情况下触发，如涉及未成年人性内容或大规模暴力信息的请求。AI 会在多次引导无效后终止对话，但不会在用户可能面临即时伤害时使用此功能。用户仍可重新开始对话或创建新分支，该功能目前为实验性措施，将持续优化。

AnthropicClaude 模型新增终止对话功能，以应对客户恶意提问

品玩

Anthropic 推出新功能，赋予 AI「自保」能力以终止对话

aibase

Anthropic 为保护 AI「心理健康」推出对话终止功能，Claude 可主动结束极端有害对话

aibase

2026-05-29

Anthropic 推出 Claude Opus 4.8

2026-05-11

OpenAI 同意向欧盟开放全新 AI 模型，而 Anthropic 仍拒绝向欧盟开放 Mythos

2026-04-08

Anthropic 在源代码泄露数日后推出网络安全 AI 模型

2026-03-24

Anthropic 为 Claude 推出桌面控制功能支持从手机远程派发任务

2026-02-25

Anthropic 舍弃标志性安全护栏承诺

2026-02-21

Anthropic 发布 Claude 安全工具，网络安全股重挫

2026-01-13

Anthropic 推出 Cowork，让非技术用户也能轻松用上 AI 代理

2025-11-25

Anthropic 正式发布最新的模型 Claude Opus 4.5

2025-09-30

Anthropic 推出最新 AI 模型 Claude Sonnet 4.5 定位「更像同事」

2025-09-12

Anthropic 推出 Claude AI 新功能：自动记忆聊天内容

查看更多

专业版功能

登录

体验专业版特色功能，拓展更丰富、更全面的相关内容。