OpenAI开源智能体浏览器功能测试基准BrowseComp,难度极高,GPT-4o和GPT-4.5准确率接近于零,带浏览器功能的GPT-4o也仅1.9%,而新发布的Deep Research准确率达51.5%,在搜索、整合与校准方面表现出色。
行业标签
更多体验
前往小程序
24 小时
资讯推送
进群体验