微软推出面向实时文本转语音(TTS)应用的轻量级模型 VibeVoice-Realtime-0.5B,支持流式文本输入与长语音输出,首音延迟约 300 毫秒,适用于代理对话、实时数据播报等场景。该模型采用交错窗口设计实现低延迟响应,基于声学标记器,运行速率 7.5 赫兹,在 LibriSpeech 测试集上零样本字错误率达 2.00%。推荐与对话大语言模型(LLM)协同部署,支持固定 8k 上下文及约 10 分钟音频输出,满足典型交互式语音需求。
行业标签
更多体验
前往小程序
24 小时
资讯推送
进群体验