OpenAI 开源智能体浏览器功能测试基准 BrowseComp,难度极高,GPT-4o 和 GPT-4.5 准确率接近于零,带浏览器功能的 GPT-4o 也仅 1.9%,而新发布的 Deep Research 准确率达 51.5%,在搜索、整合与校准方面表现出色。
行业标签
更多体验
前往小程序
24 小时
资讯推送
进群体验