OpenAI推出PaperBench基准,用于评估AI复现前沿AI研究的能力。智能体需复现20篇ICML 2024论文,最佳模型Claude 3.5 Sonnet结合开源框架平均得分为21.0%,尚未超越人类水平。
行业标签
更多体验
前往小程序
24 小时
资讯推送
进群体验