字节跳动推出视频生成模型 OmniHuman-1.5

2025 年 8 月 28 日

字节跳动推出视频生成模型 OmniHuman-1.5，可基于单张图像和语音轨道生成与语音节奏、韵律及语义内容一致的角色动画，并支持通过文本提示优化效果。该模型受大脑认知理论启发，结合多模态大语言模型与扩散 Transformer，实现长时间、动态、多角色互动的高质量视频生成。