Zurück zu KI ist Open Source
Open Source LongCat-Flash-Omni: 128K Kontext + Text/Bild/Audio/Video zu Sprachausgabe

Open Source LongCat-Flash-Omni: 128K Kontext + Text/Bild/Audio/Video zu Sprachausgabe

KI ist Open Source Admin 108 Aufrufe

I. Zusammenfassung

LongCat-Flash-Omni ist ein Open-Source-Multimodalmodell (Omni-modal) des LongCat-Teams von Meituan. Es erweitert die ScMoE-Architektur von LongCat-Flash durch eine einheitliche Modellierung von Text, Bildern, Audio und Video. Mit ca. 560 Byte an Parametern und 27 Byte an Aktivierungen ist es primär für durchgängige Sprachdialoge im Millisekundenbereich, Kontextinformationen von 128.000 Byte sowie Echtzeit-Audio- und Videointeraktionsszenarien von über 8 Minuten geeignet. Zu den wichtigsten Merkmalen gehören ein frühzeitiges Training der multimodalen Fusion, eine entkoppelte modale Parallelinfrastruktur und der zugehörige LongCat-Audio-Codec für hochwertige Sprachausgabe.

II. Kernmerkmale

  1. Vollmodale Ein-/Ausgabe: Die Eingabe kann eine beliebige Kombination aus Text, Bild, Audio oder Video sein, die Ausgabe erfolgt als Text oder Sprache und passt sich so an Echtzeit-Agenten an.
  2. Sprachverarbeitung mit geringer Latenz: Die Latenz beim gesamten Sprachverständnis und der Sprachsynthese wird im Millisekundenbereich kontrolliert, was für „unterbrochene“ Dialoge geeignet ist.
  3. Langer Kontext: Native 128K, die lange Meetings, Mehrkanal-Sprach- und Videokonferenzen unterstützt.
  4. ScMoE-Architektur: 560 Milliarden Gesamtparameter + 27 Milliarden Aktivierungen, wobei der Rechenaufwand sich der Effizienz des reinen Texttrainings annähert.
  5. Einheitliches Trainingsparadigma: Multimodales Training sollte in den frühen Phasen integriert werden, um den Verlust von Punkten in einer einzelnen Modalität zu vermeiden und Hören, Sehen und Sprechen zu berücksichtigen.

III. Installation

1. Klonen Sie das GitHub-Repository: git clone https://github.com/meituan-longcat/LongCat-Flash-Omni und wechseln Sie in das Verzeichnis.

  1. Installieren Sie die Abhängigkeiten gemäß den Anweisungen im Repository. Sie können zwischen vLLM, SGLang oder einem selbstentwickelten Inferenzdienst wählen. Eine GPU ist erforderlich; empfohlen wird ein Videospeicher von mindestens 40 GB. Mehrere GPUs können parallel verwendet werden.

3. Die entsprechenden Gewichtungen und Beispiele aus Hugging Face abrufen: https://huggingface.co/meituan-longcat/LongCat-Flash-Omni; Falls eine Sprachausgabe erforderlich ist, gleichzeitig LongCat-Audio-Codec installieren.

  1. Nach der Bereitstellung sollten Text-/Sprachtests über REST/WebSocket oder das offizielle LongCat.AI-Frontend durchgeführt werden.

IV. Typische Anwendungsfälle

  1. Echtzeit-Sprachassistent: ausgehende Anrufe, Kundenservice und Interaktionen mit Begleitern, die eine geringe Latenz und ein Gedächtnis für mehrere Gesprächsrunden erfordern.
  2. AV-Szenenverständnis: Wichtige Punkte aus Audio- und Videoeingaben für Meetings/Live-Übertragungen/Kurse extrahieren und Fragen beantworten.
  3. Text- und Audioerklärung: Screenshots/Fotos/Dokumente eingeben, um Audioerklärungen oder mehrsprachige Zusammenfassungen zu generieren.
  4. Agentenprojekt-Einstiegspunkt: Übergibt die Ergebnisse der Video-/Spracherkennung an die Toolchain oder den Geschäftsprozess zur weiteren Ausführung.

V. Ökologie und Wettbewerber

  1. Ökosystem: Ergänzend zu LongCat-Flash-Chat, LongCat-Flash-Thinking und LongCat-Audio-Codec, ermöglicht es einheitliche Versionen und Trainingsparadigmen innerhalb derselben Organisation.
  2. Wettbewerber: Die Fähigkeiten der Qwen-Serie Omni, der multimodalen Sprachversionen von InternLM/GLM und der MiniCPM-O/Omni-ähnlichen Modelle verschiedener Communities sind vergleichbar; der entscheidende Unterschied liegt in LongCats langem Kontext und der Sprachauflösung auf Millisekundenebene.
  3. Anwendungsseite: Die offizielle Website bietet eine iOS/Android-App und eine Web-Oberfläche zur Überprüfung der Sprachverbindungsleistung.

VI. Einschränkungen und Vorsichtsmaßnahmen

  1. Echte niedrige Latenzzeiten erfordern durchgängige Sprachverbindungen und Inferenzdienste mit hoher Bandbreite, die auf lokalen oder leistungsschwachen Rechnern nicht vollständig reproduziert werden können.
  2. Video-/lange Audioeingaben erhöhen den Videospeicher- und Rechenleistungsbedarf erheblich, daher ist es notwendig, das Material je nach Szenario zu kürzen oder zu segmentieren.
  3. Obwohl eine frühe multimodale Fusion die Konsistenz verbessern kann, reagiert sie empfindlich auf Datenformat und Annotationsqualität. Das sekundäre Training muss sich strikt an den offiziellen Beispielen orientieren.
  4. Open-Source-Repositories werden häufig aktualisiert, und Bereitstellungsskripte, Quantisierungsmethoden und Modellsharding sollten auf den neuesten Versionen basieren.

VII. Projektadresse

https://github.com/meituan-longcat/LongCat-Flash-Omni

VIII. Häufig gestellte Fragen

F: Benötigt LongCat-Flash-Omni eine Internetverbindung zur Durchführung von Inferenz?

A: Die Gewichte sind Open Source und können lokal oder privat eingesetzt werden. Für Sprachsynthese und multimodale Inferenz im großen Maßstab wird jedoch die Verwendung eines GPU-Clusters empfohlen, um die in der offiziellen Dokumentation gezeigte Echtzeitleistung zu erreichen.

F: In welchen Szenarien wird der 128K-Kontext hauptsächlich verwendet?

A: Geeignet für lange Besprechungen, das segmentierte Verständnis langer Videos und die Aufrechterhaltung des Status von mehrteiligen Sprachdialogen. Es kann auch als Eingabefenster für lange Dokumente in multimodalen RAG-Systemen verwendet werden.

F: Wenn nur Sprach-Ein- und -Ausgabe benötigt werden, ist es dann notwendig, die volle 560B zu laden?

A: Die offizielle Architektur ist ScMoE mit einer tatsächlichen Aktivierung von ca. 27 Bytes. Sie kann mit Quantisierung/Pruning und Single-Task-Feinabstimmung kombiniert werden, um den Ressourcenverbrauch zu reduzieren; Einzelheiten finden Sie in den Bereitstellungsanweisungen des Repositorys.

LongCat-Vollmodalmodell LongCat-Omni Multimodal LongCat-Stimme auf Millisekundenebene LongCat128K Kontext LongCatScMoE-Architektur LongCat560B-Parameter LongCat27B-Aktivierung LongCat End-to-End-Sprachübertragung LongCat Echtzeit-Agent LongCat unterbricht den Dialog LongCat langes Video verstehen Zusammenfassung des LongCat-Treffens LongCat – Illustrierte und Audio-Erklärung LongCat Mehrsprachige Stimme LongCat-Frühfusionstraining LongCat Modal Parallel LongCatAudio-Codec Hochwertige Synthese von LongCat LongCatvLLM-Einsatz LongCatSGLang-Argumentation Gewicht der langen Katze, die das Gesicht umarmt LongCatREST-Schnittstelle LongCatWebSocket-Zugriff LongCat-Privateinsatz LongCat GPU beginnt bei 40 GB LongCat-Mehrkarten-Parallelverarbeitung LongCat-Quantisierung und Clipping LongCat-Modellsegmentierung LongCat-Optimierung für geringe Bandbreite LongCat Multimodal RAG LongCat-Meeting-Livestream verstehen LongCat-Kursvideo – Fragen und Antworten LongCat Kundenservice – Ausgehende Anrufe (KI) LongCat-Begleitassistent LongCat Industrie-KI LongCat-End-to-End-Evaluierung LongCat Einheitliches Trainingsparadigma LongCat integriert Hören, Sehen und Sprechen. LongCat-Sprachverbindung Ökologische Komplementarität von LongCat LongCat ist vergleichbar mit Qwen-Omni LongCat vs. MiniCPM-O LongCat Echtzeit-Sprachchat LongCat 8-minütiges Audio und Video LongCat128K Multi-Round Memory LongCat integriert Training und logisches Denken. LongCat-Reaktionszeit im Millisekundenbereich LongCat multimodale E/A LongCatAgent-Projekteintrag Adresse des Open-Source-Projekts LongCat

Empfohlene Tools

Mehr