微软发布了OmniParser V2.0,这是一个视觉Agent解析框架,能将DeepSeek-R1、GPT-4o等模型转化为AI Agent。与V1相比,V2在检测小UI元素时准确率更高、推理速度更快,延迟降低60%。在ScreenSpot Pro基准测试中,V2+GPT-4o的准确率大幅提升至39.6%。同时,微软还开源了omnitool,一个基于Docker的Windows系统,用于屏幕理解、定位、动作规划和执行等功能,是将大模型转化为Agent的关键工具。
行业标签
更多体验
前往小程序
24 小时
资讯推送
进群体验