火山引擎发布豆包语音识别模型 2.0 提升多语种识别精度
12 月 5 日

火山引擎推出豆包语音识别模型 2.0(Doubao-Seed-ASR-2.0),该版本在推理能力上显著提升,支持多种语言和视觉信息精准识别。它继承前作高性能音频编码器优势,优化复杂场景识别,依托先进 PPO 方案实现精准识别。具备多模态理解能力,可结合图像内容进行语音识别,避免偏差。支持 13 种海外语言,拓展跨语言应用。模型已上线并提供 API 服务,未来将持续进化,此次发布展示了其创新能力和技术实力,预计带来积极影响。

专业版功能专业版功能
登录
体验专业版特色功能,拓展更丰富、更全面的相关内容。

行业标签

二维码

更多体验

前往小程序

二维码

24 小时

资讯推送

进群体验

logo
科技新闻,每天 3 分钟