微软发布轻量级实时 TTS 模型 VibeVoice-Realtime-0.5B
上周一

微软推出面向实时文本转语音(TTS)应用的轻量级模型 VibeVoice-Realtime-0.5B,支持流式文本输入与长语音输出,首音延迟约 300 毫秒,适用于代理对话、实时数据播报等场景。该模型采用交错窗口设计实现低延迟响应,基于声学标记器,运行速率 7.5 赫兹,在 LibriSpeech 测试集上零样本字错误率达 2.00%。推荐与对话大语言模型(LLM)协同部署,支持固定 8k 上下文及约 10 分钟音频输出,满足典型交互式语音需求。

专业版功能专业版功能
登录
体验专业版特色功能,拓展更丰富、更全面的相关内容。

行业标签

二维码

更多体验

前往小程序

二维码

24 小时

资讯推送

进群体验

logo
科技新闻,每天 3 分钟