GPT-5 测试被质疑作弊,故意避开难题刷高分
8 月 12 日

OpenAIGPT-5的发布会上因一张比例失调的图表引发争议,随后被发现其在SWE-bench Verified测试中仅完成了477道题,却展示了74.9%的高分,而AnthropicClaude Opus 4.1则是在完整500道题中获得74.5%的成绩。SemiAnalysis指出,OpenAI少做的23道题可能影响成绩公平性。此外,SWE-bench Verified测试集由OpenAI设计,被质疑存在规则偏向。而在IOI 2025竞赛中,OpenAI的内部模型取得佳绩,但该模型并非公开版本。这些细节引发对测试标准和营销策略的讨论。

专业版功能专业版功能
登录
体验专业版特色功能,拓展更丰富、更全面的相关内容。

行业标签

二维码

更多体验

前往小程序

二维码

24 小时

资讯推送

进群体验

logo
科技新闻,每天 3 分钟