开源 LongCat-Flash-Omni：128K 上下文 + 文本/图像/音频/视频到语音输出

一、摘要

LongCat-Flash-Omni 是美团 LongCat 团队开源的全模态（Omni-modal）模型，在 LongCat-Flash 的 ScMoE 架构上扩展了文本、图像、音频、视频的统一建模，参数总量约 560B、激活约 27B，重点面向毫秒级端到端语音对话、128K 上下文及 8 分钟以上实时音视频交互场景。其特点是早期多模态融合训练、解耦的模态并行基础设施，以及配套的 LongCat-Audio-Codec，用于高质量语音输出。

二、核心特性

1、全模态 I/O：文本/图片/音频/视频任意组合输入，输出文本或语音，适配实时 Agent。

2、低时延语音：端到端语音理解与合成延迟控制在毫秒级，适合“打断式”对话。

3、长上下文：原生 128K，可支撑长会议、多轮语音及长视频理解。

4、ScMoE 架构：560B 总参 + 27B 激活，计算成本接近纯文本训练效率。

5、统一训练范式：早期融合多模态，避免单一模态掉点，兼顾听、看、说。

三、安装

1、GitHub 克隆仓库：git clone https://github.com/meituan-longcat/LongCat-Flash-Omni 并进入目录。

2、按仓库提供的环境说明安装依赖，可选 vLLM/SGLang/自研推理服务；需要 GPU 且显存建议≥40GB，多卡可并行。

3、从 Hugging Face 拉取对应权重与示例：https://huggingface.co/meituan-longcat/LongCat-Flash-Omni；若需语音输出，同步安装 LongCat-Audio-Codec。

4、部署后通过 REST/WebSocket 或官方 LongCat.AI 前端进行文本/语音测试。

四、典型用例

1、实时语音助手：外呼、客服、陪伴类交互，要求低时延与多轮记忆。

2、AV 场景理解：会议/直播/课程的音视频输入，做要点提取与问答。

3、图文+语音讲解：输入截图/照片/文档，生成语音讲解或多语种摘要。

4、Agent 工程入口：将视频/语音感知结果交给工具链或业务流程继续执行。

五、生态与竞品

1、生态：与 LongCat-Flash-Chat、LongCat-Flash-Thinking、LongCat-Audio-Codec 互补，可在同一组织下统一版本与训练范式。

2、竞品：同期开源的 Qwen 系列 Omni、InternLM/GLM 的语音多模态版本、多家社区的 MiniCPM-O/Omni 类模型在能力上可对比；LongCat 的长上下文 + 毫秒级语音是差异点。

3、应用端：官方给出了 iOS/Android App 与 Web 体验站点，方便验证语音链路性能。

六、局限与注意事项

1、真正的低时延依赖端到端语音链路与高带宽推理服务，本地或低配机器无法完全复现。

2、视频/长音频输入会显著拉高显存与算力，需按场景做裁剪或分段。

3、多模态早期融合虽能提升一致性，但对数据格式与标注质量敏感，二次训练要严格对齐官方示例。

4、开源仓库的更新频率较高，部署脚本、量化方式与模型分片需以最新版本为准。

七、项目地址

https://github.com/meituan-longcat/LongCat-Flash-Omni

八、常见问题

Q: LongCat-Flash-Omni 是否必须联网才能推理？

A: 权重开源，可本地/私有化部署，但语音合成与大批量多模态推理建议使用 GPU 集群以获得官方展示的实时性。

Q: 128K 上下文主要用在什么场景？

A: 适合长会议、长视频逐段理解、多轮语音对话状态保持，也可作为多模态 RAG 的长文档输入窗口。

Q: 若只要语音输入输出，需要加载完整 560B 吗？

A: 官方架构为 ScMoE，实际激活约 27B，可结合量化/裁剪与单任务微调减少资源消耗；具体以仓库部署说明为准。

开源 LongCat-Flash-Omni：128K 上下文 + 文本/图像/音频/视频到语音输出

相关文章

24小时AI新闻：并购传闻与亚太倡议同频，国内合规与应用双推进

24小时AI新闻：亚太治理新提案、产业落地与安全合规同频推进

Mem0 值得接入 Agent 吗？长期记忆有用但要管好边界

Haystack 适合什么团队？它更像可组合的 RAG 工程框架

推荐工具

开源 LongCat-Flash-Omni：128K 上下文 + 文本/图像/音频/视频到语音输出

相关文章

24小时AI新闻：并购传闻与亚太倡议同频，国内合规与应用双推进

24小时AI新闻：亚太治理新提案、产业落地与安全合规同频推进

Mem0 值得接入 Agent 吗？长期记忆有用但要管好边界

Haystack 适合什么团队？它更像可组合的 RAG 工程框架

推荐工具

提交AI工具

请确认提交信息