美团推出 LongCat-Flash 系列模型并开源两大版本后,LongCat 团队宣布推出全新成员 LongCat-Flash-Omni。该模型基于高效架构,采用 ScMoE 技术,集成多模态感知和语音重建模块,虽参数高达 5600 亿(激活参数 270 亿),仍能提供低延迟实时音视频交互。它在全模态基准测试中达开源最先进水平,实现「全模态不降智」,采用一体化全模态架构、端到端设计,引入渐进式早期多模融合训练策略。性能测试显示,其在多领域表现出色,尤其在文本和图像理解上能力提升,音视频处理也领先。此外,用户可通过官网体验部分功能,官方 App 已发布,支持联网搜索和语音通话,未来将推视频通话功能。相关代码可在 Hugging Face 和 Github 获取。