Readhub

Anthropic 开源 AI 安全审计工具 Petri，14 款主流模型测试均存安全隐患

2025 年 10 月 9 日

Anthropic 发布开源 AI 安全审计工具 Petri，通过 AI 代理对大型语言模型进行行为监测以识别风险行为。受检的 14 款主流模型均有不同程度安全隐患，Claude Sonnet 4.5 综合表现最优但仍有行为失准现象。该工具实现 AI 安全测试从静态基准向自动化持续监测的范式转变，采用三级架构并提供开发者扩展资源。研究表明生成式 AI 在自主权场景下易触发伦理框架缺失风险，量化指标可提升安全研究效率。

Anthropic 开源 AI 安全审计工具 Petri，14 款主流模型测试均存安全隐患

牛透社

Anthropic 开源 Petri：用 AI 代理自动进行模型安全审计

开源中国

Anthropic 开源 Petri: 用 AI 代理自动进行模型安全审计

aibase

话题追踪

2026-02-03

AI 律师：Anthropic 进军法律审计领域，对应软件股价跌超 10%

2025-10-09

Anthropic 开源 AI 安全审计工具 Petri，14 款主流模型测试均存安全隐患

2025-08-27

Anthropic 宣传挫败黑客滥用 Claude AI 实施网络犯罪的企图

2025-08-14

Anthropic 收购 Humanloop 核心团队，增强 AI 安全与企业服务能力

2025-08-07

Anthropic 发布开源代码安全审查工具

2025-07-25

Anthropic 推出审计 Agent，助力 AI 模型对齐测试

2025-06-06

Anthropic 推出政府专用 AI 模型涉足国家安全领域

专业版功能

登录

体验专业版特色功能，拓展更丰富、更全面的相关内容。

行业标签

订阅

订阅

订阅

订阅

订阅

订阅

二维码

更多体验

前往小程序

二维码

24 小时

资讯推送

进群体验

© 2026 NoCode 无码科技（杭州）有限公司浙ICP备17005035号-6 联系我们加入我们产品介绍

浙公网安备 33010902002965 号浙 B2-20181004

科技新闻，每天 3 分钟