阿里巴巴自然语言处理团队推出开源多模态智能体WebWatcher,旨在突破现有系统在多模态深度研究中的限制。WebWatcher整合网页浏览、图像搜索、代码解释和OCR等工具,具备视觉理解、逻辑推理、知识调用和工具调度等能力。其全自动多模态数据生成流程和强化学习策略提升了模型的跨模态理解和复杂任务处理能力。在多项评测中,WebWatcher表现优异,领先于多个主流多模态大模型。
行业标签
更多体验
前往小程序
24 小时
资讯推送
进群体验