I. Grundlegende Informationen
Captions ist eine KI-gestützte Videoproduktions- und -bearbeitungsplattform von Mirage. Zu ihren Kernfunktionen gehören KI-Videobearbeitung, automatische Untertitelung (Text-zu-Video), Lippensynchronisation und mehrsprachige Synchronisation, die Generierung digitaler Charaktere sowie Blickbewegungskorrektur. Das Produkt bietet einen kompletten Produktionsprozess vom Drehbuch bis zum fertigen Produkt für mobile und Web-Plattformen und richtet sich an Kurzvideo-Produzenten, Marken und E-Commerce-Teams, Bildungs- und Ausbildungseinrichtungen sowie Content-Studios mit Bedarf an skalierbaren Produktionsmengen.
II. Produktübersicht
Captions optimiert Arbeitsabläufe durch einen hybriden Ansatz aus Dialog- und Timeline-Bearbeitung. Nutzer können Material direkt aufnehmen oder hochladen oder mithilfe von AI Creator und Skripten schnell Entwürfe erstellen. Das System bietet Untertitelgenerierung und Stilverwaltung, automatische Synchronisation und Hintergrundmusik sowie mehrsprachige Übersetzung und Synchronisationsanpassung. Für Präsentationen und Bildschirminhalte bietet die Plattform Eye-Contact-Eye-Tracking-Korrektur, Rauschunterdrückung, intelligente Zoom-Funktion und eine Titelkarten-Vorlagenbibliothek. So werden wichtige Bearbeitungsschritte ohne aufwendige manuelle Nachbearbeitung erledigt. Für Nutzer, die Schauspieler benötigen, aber das Filmen vor Ort als umständlich empfinden, bietet Captions AI Twins und Mirage zur Schauspielergenerierung. Diese ermöglichen die Stapelverarbeitung von Videos mit Lippensynchronisation und Sprachanpassung unter Beibehaltung des individuellen Erscheinungsbilds oder die Auswahl von Bildern aus der Bibliothek.
III. Kernfunktionen
1. Hauptfunktionen
Automatische Untertitel unterstützen mehrsprachige Transkription und Stilbearbeitung.
Lipdub synchronisiert Lippenbewegungen mit Sprachaufnahmen und ermöglicht so die Angleichung von Sprachmustern an verschiedene Sprachen.
AI Twins generiert persönliche Personas, die Sprach- und visuelle Elemente kombinieren, um Erklärvideos zu erstellen.
Mirage generiert Schauspieler mit standardisierten Präsentationsbildern und mehreren Stimmstilen.
Mit AI Creator und Chat to Edit können Sie Videomaterial mithilfe von Eingabeaufforderungen oder Dialogen generieren und bearbeiten.
Blickkontakt und Rauschunterdrückung verbessern das visuelle Erlebnis.
Die Vorlagen für KI-Anzeigen und KI-Kurzfilme sind mit den wichtigsten Plattformen kompatibel.
Skriptgenerierung und Teleprompter ermöglichen Aufnahmen in einem Durchgang.
2. Technische Merkmale
Die mehrsprachige Sprachsynthese- und Übersetzungspipeline unterstützt ausgerichtete Untertitel und Lippenbewegungen.
Die KI-gestützte Bearbeitung auf Objektivebene unterstützt Ein-Klick-Schnitttechniken, automatischen Bildvorschub und Übergangsvorschläge.
Mobile-First- und Cloud-basierte Zusammenarbeit: Projekte und Verlauf zwischen Mobiltelefonen und Webbrowsern austauschen.
In höheren Versionen werden die Modellauswahl und die Steuerung der Parallelverarbeitung sowie die Generierung von Parallelverarbeitung und der Modellwechsel unterstützt.
IV. Preise und Versionen
Captions bietet einen kostenlosen Tarif sowie verschiedene Abonnements: Pro 9,99 $/Monat, Max 24,99 $/Monat und Scale 69,99 $/Monat. Die Tarife unterscheiden sich hinsichtlich Projekterstellung, Exportbeschränkungen für Wasserzeichen, Modellauswahl, Anzahl der generierten KI-Zwillinge und Verfügbarkeit generierter Schauspieler. Preise und Funktionen können sich ändern und sind auf der offiziellen Website und im Hilfecenter einsehbar. Verfügbarkeit und Preise können je nach Region und Zeitraum variieren.
V. Anwendbare Szenarien und Zielgruppe
Kurzvideo-Ersteller können mithilfe automatischer Untertitel, Lippensynchronisation und Vorlagen schnell tägliche Inhaltsaktualisierungen erstellen.
Marken und E-Commerce-Teams nutzen KI-gestützte Anzeigen und mehrsprachige Sprachaufnahmen, um Werbemittel in großen Mengen zu generieren.
Im Bildungs- und Ausbildungsbereich werden Skriptgenerierung und Augenkorrektur eingesetzt, um Kursmikrolektionen und Lehrvideos zu erstellen.
Die internationalen Aktivitäten werden auf mehrere Regionen ausgeweitet, wobei durch Übersetzung und Synchronisation die stilistische Konsistenz gewahrt bleibt.
Medien- und Content-Studios nutzen die gleichzeitige Generierung und den Modellwechsel, um die Effizienz paralleler Multi-Projekt-Operationen zu verbessern.
VI. Häufig gestellte Fragen
F: Worin bestehen die Unterschiede zwischen KI-Zwillingen und generierten Akteuren in Untertiteln?
A: AI Twins verwendet das eigene Bild des Nutzers als Grundlage und eignet sich daher ideal zur Erstellung einer einheitlichen persönlichen Marke. Die Schauspieler stammen aus einer offiziellen Bibliothek und sind somit geeignet für Szenarien, in denen es für den Nutzer unpraktisch ist, vor der Kamera zu erscheinen, oder in denen mehrere Rollen benötigt werden.
F: Wie funktioniert die Lippensynchronisationsfunktion in den Untertiteln?
A: Die Plattform stellt eine zeitliche Synchronisierung zwischen Sprachaufnahme und Bildmaterial her. Durch Lippensynchronisationserkennung und Sprachausrichtungstechnologie wird sichergestellt, dass Sprachaufnahmen in verschiedenen Sprachen konsistente Lippenbewegungen beibehalten, wodurch sie sich für mehrsprachige Veröffentlichungen eignet.
F: Unterstützt es die Aufnahme und Veröffentlichung ausschließlich auf Mobilgeräten?
A: Ja, es unterstützt das Aufzeichnen und Exportieren von Teleprompter-Untertiteln auf Ihrem Mobiltelefon und deren Synchronisierung mit der Cloud in der Webversion.
F: Worin bestehen die Unterschiede zwischen der kostenlosen und der kostenpflichtigen Version?
A: Dies spiegelt sich hauptsächlich darin wider, ob das Quotenmodell mit Wasserzeichen exportiert wird, ob Berechtigungen zur gleichzeitigen Generierung von KI-Zwillingen verfügbar sind, ob Schauspieler verfügbar sind und ob fortgeschrittene Tools wie Werbe- und Kurzfilmvorlagen verfügbar sind.
F: Welche Anwendungsszenarien gibt es für Eye Contact und Denoise?
A: Die Funktion „Blickkontakt“ dient der nachträglichen Korrektur der Augen, um einen professionellen Eindruck durch direkten Blick in die Kamera zu erzeugen. Die Rauschunterdrückung reduziert Umgebungsgeräusche und verbessert die Sprachverständlichkeit; sie eignet sich für spontane Aufnahmen und Innenräume.