OpenAI在GPT-5的发布会上因一张比例失调的图表引发争议,随后被发现其在SWE-bench Verified测试中仅完成了477道题,却展示了74.9%的高分,而Anthropic的Claude Opus 4.1则是在完整500道题中获得74.5%的成绩。SemiAnalysis指出,OpenAI少做的23道题可能影响成绩公平性。此外,SWE-bench Verified测试集由OpenAI设计,被质疑存在规则偏向。而在IOI 2025竞赛中,OpenAI的内部模型取得佳绩,但该模型并非公开版本。这些细节引发对测试标准和营销策略的讨论。