Google hat in einem Entwickler-Update eine Vorschau von Gemini 2.5 Flash Native Audio Live veröffentlicht und bezeichnet es als neueste Version des Gemini Live-Modells. Der Fokus liegt auf der Verbesserung der Funktionsaufrufzuverlässigkeit und der Natürlichkeit der Konversation. Dieses Modell verarbeitet Ein- und Ausgabe mit nativem Audio und reduziert so die Latenz und Verzerrungen herkömmlicher ASR/TTS-Kaskaden. Es unterstützt Unterbrechungen und Wiederaufnahmen während Gesprächen und ist auf Szenarien wie Echtzeit-Sprachassistenten, Kundendienstmitarbeiter und Live-Demonstrationen ausgerichtet.
Laut offizieller Dokumentation unterstützt die Live API latenzarme, bidirektionale gemischte Sprach-/Video- und Texteingabe. Modelle können Tool-Aufrufe direkt innerhalb einer Konversation auslösen und strukturierte Ergebnisse zurückgeben. Diese Vorschauversion steht ab sofort im Google AI Studio zum Testen bereit, gleichzeitig werden die Dokumentationen zu Vertex AI und Gemini API aktualisiert. Entwickler können der Live API-Anleitung folgen, um sie zu integrieren und zu testen. Laut Änderungsprotokoll wird das native Audiomodell am 23. September 2025 zur Vorschau verfügbar sein.
Häufig gestellte Fragen
F: Was sind diesmal die wichtigsten Verbesserungen von Gemini Live?
A: Das native Audiomodell ist online, Funktionsaufrufe sind stabiler und genauer; Sprachgespräche sind natürlicher und Sie können die Antwort sofort unterbrechen und fortsetzen.
F: Wo kann ich es erleben?
A: Das Live-Portal von Google AI Studio ist jetzt für Online-Tests geöffnet.
F: Welche Ein- und Ausgaben kann die Live-API verarbeiten?
A: Text-, Audio- und Videoeingabe; Text- und Audioausgabe, unterstützt bidirektionales Streaming in Echtzeit.
F: Ist dies die offizielle Version?
A: Dies ist eine Vorschauversion. Informationen zu spezifischen Funktionen und Kontingenten finden Sie in der offiziellen Dokumentation und Konsole.
F: Wie unterscheidet es sich von früheren Gemini Lives?
A: Durch die Verwendung eines einzelnen nativen Audiomodells wird die STT/TTS-Kaskadierung reduziert, was zu einer geringeren Latenz und einer stabileren Leistung beim Tool-Aufruf führt.