戻るAIはオープンソースです
オープンソースの LongCat-Flash-Omni: 128K コンテキスト + テキスト/画像/オーディオ/ビデオから音声出力

オープンソースの LongCat-Flash-Omni: 128K コンテキスト + テキスト/画像/オーディオ/ビデオから音声出力

AIはオープンソースです Admin 108 回閲覧

I. 要約

LongCat-Flash-Omniは、MeituanのLongCatチームによるオープンソースのマルチモーダル(オムニモーダル)モデルです。テキスト、画像、音声、動画の統合モデリングを提供することで、LongCat-FlashのScMoEアーキテクチャを拡張しています。約560バイトのパラメータと27バイトのアクティベーションを持ち、主にミリ秒レベルのエンドツーエンド音声対話、128Kコンテキスト、そして8分を超えるリアルタイム音声・動画インタラクションシナリオを対象としています。主な機能としては、早期マルチモーダル融合トレーニング、分離されたモーダル並列インフラストラクチャ、そして高品質な音声出力を実現するLongCat-Audio-Codecが挙げられます。

II. コア機能

  1. フルモーダル I/O: 入力はテキスト、画像、音声、ビデオの任意の組み合わせが可能で、出力はテキストまたは音声で、リアルタイムエージェントに適応します。
  2. 低遅延音声: エンドツーエンドの音声理解および合成の遅延はミリ秒レベルで制御され、「中断された」対話に適しています。
  3. 長いコンテキスト: ネイティブ 128K で、長時間の会議、複数ターンの音声、長時間のビデオ理解をサポートします。
  4. ScMoE アーキテクチャ: 合計 5600 億のパラメーター + 270 億のアクティベーション。計算コストは純粋なテキスト トレーニングの効率に近づきます。
  5. 統一されたトレーニングパラダイム: 単一の方法でポイントを失うことを避けるために、早い段階でマルチモーダルトレーニングを統合し、聞くこと、見ること、話すことを考慮に入れます。

III. インストール

1. GitHub リポジトリ:git clone https://github.com/meituan-longcat/LongCat-Flash-Omni をクローンし、ディレクトリに入ります。

  1. リポジトリに記載されている環境設定の指示に従って依存関係をインストールします。vLLM、SGLang、または独自開発の推論サービスから選択できます。GPUが必須で、ビデオメモリは40GB以上を推奨します。複数のGPUを並列で使用できます。

3. Hugging Face から対応する重みと例を取得します: https://huggingface.co/meituan-longcat/LongCat-Flash-Omni; 音声出力が必要な場合は、LongCat-Audio-Codec を同時にインストールします。

  1. デプロイ後、REST/WebSocket または公式の LongCat.AI フロントエンド経由でテキスト/音声テストを実施します。

IV. 典型的なユースケース

  1. リアルタイム音声アシスタント: 発信通話、顧客サービス、およびコンパニオンシップのインタラクションには、低遅延とマルチターンメモリが必要です。
  2. AV シーン理解: 会議/ライブ ブロードキャスト/コースのオーディオおよびビデオ入力から重要なポイントを抽出し、質問に答えます。
  3. テキストと音声による説明: スクリーンショット/写真/ドキュメントを入力して、音声による説明や多言語による要約を生成します。
  4. エージェント プロジェクトのエントリ ポイント: ビデオ/音声認識の結果をツールチェーンまたはビジネス プロセスに渡して、さらに実行します。

V. 生態と競合相手

  1. エコシステム: LongCat-Flash-Chat、LongCat-Flash-Thinking、および LongCat-Audio-Codec を補完し、同じ組織内での統一されたバージョンとトレーニング パラダイムを可能にします。
  2. 競合製品: Qwen シリーズの Omni、InterLM/GLM 音声マルチモーダル バージョン、およびさまざまなコミュニティの MiniCPM-O/Omni のようなモデルの機能は同等ですが、LongCat の長いコンテキスト + ミリ秒レベルの音声が差別化要因となっています。
  3. アプリケーション側: 公式サイトでは、音声リンクのパフォーマンス検証を容易にするために、iOS/Android アプリと Web 体験サイトを提供しています。

VI. 制限事項と注意事項

  1. 真の低遅延は、エンドツーエンドの音声リンクと高帯域幅の推論サービスに依存しており、ローカルマシンや低スペックのマシンでは完全に再現できません。
  2. ビデオ/長いオーディオを入力すると、ビデオメモリと計算能力が大幅に増加するため、シナリオに応じてトリミングまたはセグメント化する必要があります。
  3. 早期のマルチモーダル融合は一貫性を向上させる可能性がありますが、データ形式とアノテーションの品質に敏感です。二次トレーニングは公式サンプルに厳密に準拠する必要があります。
  4. オープンソース リポジトリは頻繁に更新されるため、デプロイメント スクリプト、量子化方法、モデル シャーディングは最新バージョンに基づく必要があります。

VII. プロジェクト住所

https://github.com/meituan-longcat/LongCat-Flash-Omni

VIII. よくある質問

Q: LongCat-Flash-Omni では推論を実行するためにインターネット接続が必要ですか?

A: 重みはオープンソースであり、ローカルまたはプライベートに展開できますが、音声合成や大規模なマルチモーダル推論の場合、公式ドキュメントに示されているリアルタイムパフォーマンスを実現するために、GPU クラスターを使用することをお勧めします。

Q: 128K コンテキストは主にどのようなシナリオで使用されますか?

A: 長時間の会議、長時間の動画のセグメント理解、複数ターンの音声対話の状態維持に適しています。また、マルチモーダルRAGの長文ドキュメント入力ウィンドウとしても使用できます。

Q: 音声入出力のみが必要な場合、560B をフルにロードする必要がありますか?

A: 公式アーキテクチャはScMoEで、実際のアクティベーションは約27バイトです。量子化/プルーニングとシングルタスクのファインチューニングを組み合わせることで、リソース消費を削減できます。詳細はリポジトリのデプロイ手順をご覧ください。

LongCatフルモーダルモデル LongCat-Omni マルチモーダル LongCat ミリ秒レベルの音声 LongCat128Kコンテキスト LongCatScMoEアーキテクチャ LongCat560Bパラメータ LongCat27Bの活性化 LongCatエンドツーエンド音声 LongCatリアルタイムエージェント LongCatが会話を中断する LongCat 長いビデオの理解 LongCat会議の概要 LongCatのイラストと音声による解説 LongCat 多言語音声 LongCat早期融合トレーニング LongCat モーダルパラレル LongCatAudioコーデック LongCatの高品質合成 LongCatvLLM デプロイメント LongCatSGLang推論 LongCatHuggingFaceの重量 LongCatRESTインターフェース LongCatWebSocket アクセス LongCatプライベート展開 LongCat GPUは40GBから LongCat マルチカード並列処理 LongCat の量子化とクリッピング LongCatモデルのセグメンテーション LongCat 低帯域幅最適化 LongCat マルチモーダル RAG LongCatミーティングライブストリームを理解する LongCat コースビデオ QA LongCat カスタマーサービス アウトバウンドコール AI LongCatコンパニオンアシスタント ロングキャット産業用AI LongCat エンドツーエンド評価 LongCat統合トレーニングパラダイム LongCat は、聞くこと、見ること、話すことを統合します。 LongCat音声リンク ロングキャットの生態学的補完性 LongCatはQwen-Omniに匹敵する LongCat と MiniCPM-O の比較 LongCat リアルタイム音声チャット LongCat 8分間の音声とビデオ LongCat128K マルチラウンドメモリ LongCat はトレーニングと推論を統合します。 LongCatのミリ秒レベルの応答 LongCat マルチモーダル IO LongCatAgent プロジェクトエントリー LongCatオープンソースプロジェクトのアドレス

関連記事

24時間AIニュース:合併の噂はアジア太平洋の取り組みと整合し、国内コンプライアンスとアプリケーションの進歩は手を取り合って進む

24時間AIニュース:合併の噂はアジア太平洋の取り組みと整合し、国内コンプライアンスとアプリケーションの進歩は手を取り合って進む

過去24時間(11月1日)、中国では大規模モデルの登録・認証、業界会議、学術フォーラムが急増しました。アジア太平洋地域では、首脳会議やイニシアチブにおいて人工知能(AI)が重視されました。欧州では、「...

24時間AIニュース:アジア太平洋地域の新たなガバナンス提案、産業実装、セキュリティコンプライアンスが同時に進展

24時間AIニュース:アジア太平洋地域の新たなガバナンス提案、産業実装、セキュリティコンプライアンスが同時に進展

過去24時間(11月1日~2日)において、アジア太平洋地域では人工知能(AI)のグローバルガバナンスに関する新たな展開が見られました。中国では産業応用と都市のデジタル化政策が幅広く進展し、北米のメディ...

Mem0はエージェントと統合する価値がありますか? 長期記憶は役立ちますが、境界線を管理する必要があります

Mem0はエージェントと統合する価値がありますか? 長期記憶は役立ちますが、境界線を管理する必要があります

Mem0は、AIアプリケーションやエージェント向けのオープンソースメモリ層プロジェクトで、アプリのユーザーの好み、歴史的事実、長期的な文脈を記憶するのを支援することを目的としています。 パーソナライズ...

ヘイスタックはどのようなチームに適しているのでしょうか? むしろコンポジタブルなRAGエンジニアリングフレームワークのようなものです

ヘイスタックはどのようなチームに適しているのでしょうか? むしろコンポジタブルなRAGエンジニアリングフレームワークのようなものです

HaystackはDeepSetが保守するオープンソースのAIアプリケーションフレームワークで、RAG構築、ドキュメントQ&A、検索パイプライン、LLMワークフローの構築に一般的に使用されています。 ...

おすすめツール

もっと見る