OpenAI宣布推出AI Agent评测基准PaperBench
4 月 3 日

OpenAI推出PaperBench基准,用于评估AI复现前沿AI研究的能力。智能体需复现20篇ICML 2024论文,最佳模型Claude 3.5 Sonnet结合开源框架平均得分为21.0%,尚未超越人类水平。

专业版功能专业版功能
登录
体验专业版特色功能,拓展更丰富、更全面的相关内容。

行业标签

二维码

更多体验

前往小程序

二维码

24 小时

资讯推送

进群体验

logo
科技新闻,每天 3 分钟