OpenAI 开源 BrowseComp,重塑 Agent 浏览器评测
4 月 11 日

OpenAI 开源智能体浏览器功能测试基准 BrowseComp,难度极高,GPT-4oGPT-4.5 准确率接近于零,带浏览器功能的 GPT-4o 也仅 1.9%,而新发布的 Deep Research 准确率达 51.5%,在搜索、整合与校准方面表现出色。

专业版功能专业版功能
登录
体验专业版特色功能,拓展更丰富、更全面的相关内容。

行业标签

logo
科技新闻,每天 3 分钟