Anthropic 公司为其部分大型 AI 模型新增一项功能,允许模型在面对极端有害或辱骂性互动时主动结束对话,旨在保护 AI 自身而非用户。公司强调 Claude 尚无感知能力,但出于对未来模型道德地位的不确定性,设立了「模范福利」项目。该功能仅在极端情况下触发,如涉及未成年人性内容或大规模暴力信息的请求。AI 会在多次引导无效后终止对话,但不会在用户可能面临即时伤害时使用此功能。用户仍可重新开始对话或创建新分支,该功能目前为实验性措施,将持续优化。
行业标签
更多体验
前往小程序
24 小时
资讯推送
进群体验