微软发布轻量级实时 TTS 模型 VibeVoice-Realtime-0.5B

2025 年 12 月 8 日

微软推出面向实时文本转语音（TTS）应用的轻量级模型 VibeVoice-Realtime-0.5B，支持流式文本输入与长语音输出，首音延迟约 300 毫秒，适用于代理对话、实时数据播报等场景。该模型采用交错窗口设计实现低延迟响应，基于声学标记器，运行速率 7.5 赫兹，在 LibriSpeech 测试集上零样本字错误率达 2.00%。推荐与对话大语言模型（LLM）协同部署，支持固定 8k 上下文及约 10 分钟音频输出，满足典型交互式语音需求。

微软发布轻量级实时 TTS 模型 VibeVoice-Realtime-0.5B

品玩

微软推出 VibeVoice-Realtime：实时文本转语音新模型，助力互动式应用

aibase

微软发布实时文本转语音模型 VibeVoice-Realtime-0.5B

牛透社

2026-04-03

微软推出全球最高精度的语音转写模型 MAI-Transcribe-1

2025-12-08

微软发布轻量级实时 TTS 模型 VibeVoice-Realtime-0.5B

2025-11-05

微软 365 Copilot 移动应用上线语音支持

2025-10-17

WP、小娜「重生」：微软为 Win11 推出「Hey Copilot」语音唤醒指令

2025-09-11

微软推出全新 Copilot Audio 音频模式，体验更具个性化的语音交互

2025-09-05

微软发布全新 GPT-realtime 语音模型

2025-08-29

微软推出首批自主研发 AI 模型：挑战 OpenAI，赋能下一代 Copilot

2025-08-13

微软推出全新 AI 标记语言 POML

2025-06-12

微软 Clipchamp 上线新功能：删文本即剪视频，无需手动调整时间轴

2025-05-15

微软更新 Win 11 版 Copilot 应用，语音唤醒「Hey Copilot」上线

查看更多

专业版功能

登录

体验专业版特色功能，拓展更丰富、更全面的相关内容。