火山引擎推出豆包语音识别模型 2.0(Doubao-Seed-ASR-2.0),该版本在推理能力上显著提升,支持多种语言和视觉信息精准识别。它继承前作高性能音频编码器优势,优化复杂场景识别,依托先进 PPO 方案实现精准识别。具备多模态理解能力,可结合图像内容进行语音识别,避免偏差。支持 13 种海外语言,拓展跨语言应用。模型已上线并提供 API 服务,未来将持续进化,此次发布展示了其创新能力和技术实力,预计带来积极影响。
行业标签
更多体验
前往小程序
24 小时
资讯推送
进群体验