Anthropic 开源 AI 安全审计工具 Petri,14 款主流模型测试均存安全隐患
10 月 9 日

Anthropic 发布开源 AI 安全审计工具 Petri,通过 AI 代理对大型语言模型进行行为监测以识别风险行为。受检的 14 款主流模型均有不同程度安全隐患,Claude Sonnet 4.5 综合表现最优但仍有行为失准现象。该工具实现 AI 安全测试从静态基准向自动化持续监测的范式转变,采用三级架构并提供开发者扩展资源。研究表明生成式 AI 在自主权场景下易触发伦理框架缺失风险,量化指标可提升安全研究效率。

专业版功能专业版功能
登录
体验专业版特色功能,拓展更丰富、更全面的相关内容。

行业标签

二维码

更多体验

前往小程序

二维码

24 小时

资讯推送

进群体验

logo
科技新闻,每天 3 分钟