Zurück zu KI-Informationen
Google veröffentlicht native Audiovorschau für Gemini 2.5 Flash Live für natürlichere Sprachgespräche

Google veröffentlicht native Audiovorschau für Gemini 2.5 Flash Live für natürlichere Sprachgespräche

KI-Informationen Admin 32 Aufrufe

Google hat in einem Entwickler-Update eine Vorschau von Gemini 2.5 Flash Native Audio Live veröffentlicht und bezeichnet es als neueste Version des Gemini Live-Modells. Der Fokus liegt auf der Verbesserung der Funktionsaufrufzuverlässigkeit und der Natürlichkeit der Konversation. Dieses Modell verarbeitet Ein- und Ausgabe mit nativem Audio und reduziert so die Latenz und Verzerrungen herkömmlicher ASR/TTS-Kaskaden. Es unterstützt Unterbrechungen und Wiederaufnahmen während Gesprächen und ist auf Szenarien wie Echtzeit-Sprachassistenten, Kundendienstmitarbeiter und Live-Demonstrationen ausgerichtet.

Laut offizieller Dokumentation unterstützt die Live API latenzarme, bidirektionale gemischte Sprach-/Video- und Texteingabe. Modelle können Tool-Aufrufe direkt innerhalb einer Konversation auslösen und strukturierte Ergebnisse zurückgeben. Diese Vorschauversion steht ab sofort im Google AI Studio zum Testen bereit, gleichzeitig werden die Dokumentationen zu Vertex AI und Gemini API aktualisiert. Entwickler können der Live API-Anleitung folgen, um sie zu integrieren und zu testen. Laut Änderungsprotokoll wird das native Audiomodell am 23. September 2025 zur Vorschau verfügbar sein.

Häufig gestellte Fragen

F: Was sind diesmal die wichtigsten Verbesserungen von Gemini Live?

A: Das native Audiomodell ist online, Funktionsaufrufe sind stabiler und genauer; Sprachgespräche sind natürlicher und Sie können die Antwort sofort unterbrechen und fortsetzen.

F: Wo kann ich es erleben?

A: Das Live-Portal von Google AI Studio ist jetzt für Online-Tests geöffnet.

F: Welche Ein- und Ausgaben kann die Live-API verarbeiten?

A: Text-, Audio- und Videoeingabe; Text- und Audioausgabe, unterstützt bidirektionales Streaming in Echtzeit.

F: Ist dies die offizielle Version?

A: Dies ist eine Vorschauversion. Informationen zu spezifischen Funktionen und Kontingenten finden Sie in der offiziellen Dokumentation und Konsole.

F: Wie unterscheidet es sich von früheren Gemini Lives?

A: Durch die Verwendung eines einzelnen nativen Audiomodells wird die STT/TTS-Kaskadierung reduziert, was zu einer geringeren Latenz und einer stabileren Leistung beim Tool-Aufruf führt.

Natives GeminiLive-Audio GeminiLive2.5 Flash-Vorschau Verbesserung des GeminiLive-Funktionsaufrufs GeminiLive Echtzeit-Sprachassistent GeminiLive-Kundendienst-Sitzplatzlösung GeminiLive Live-Demo GeminiLive-Konversation mit geringer Latenz GeminiLive kann mittendrin unterbrochen werden GeminiLive Sofortantwort Bidirektionales Streaming mit GeminiLive GeminiLive Audio-Eingang und -Ausgang Gemischte Video- und Textübertragung von GeminiLive Der GeminiLive-Tool-Aufruf ist stabil Strukturierte Ergebnisse von GeminiLive GeminiLiveAIStudio-Testversion GeminiLiveVertexAI-Zugriff GeminiLiveGeminiAPI-Handbuch GeminiLive-Entwickler-Update GeminiLive 23.09.2025 Vorschau Highlights des GeminiLive-Änderungsprotokolls GeminiLiveASR_TTS-Kaskadenvergleich GeminiLive reduziert Verzögerungen und Verzerrungen GeminiLive-Gespräche werden natürlicher Zuverlässigkeit von GeminiLive-Funktionsaufrufen GeminiLive Echtzeit-Mehrrunden-Konversation GeminiLive-Sprach-zu-Text-Konvertierung ohne Kaskadierung GeminiLive-Videokonferenzszenarien GeminiLive Intelligente Kundenservice-Integration GeminiLive-Toolchain-Trigger GeminiLiveWebhook kehrt zurück Kontingente und Limits von GeminiLive GeminiLive-Vorschaubeschreibung GeminiLive-Zugriffsbeispiel GeminiLiveSDK-Aufruf GeminiLiveWebRTC-Idee GeminiLive-Mikrofonberechtigungen GeminiLive-Browserkompatibel GeminiLive Geräuschunterdrückung und Echo Satzsegmentierung und Pausenverarbeitung mit GeminiLive GeminiLive-Prompt-Wortdesign GeminiLive-Funktionsschemadesign GeminiLive-Sicherheit und Compliance GeminiLive-Kosten und Abrechnung GeminiLive im Vergleich zu früheren Live Natives Audiomodell von GeminiLive GeminiLive Echtzeit-Untertitelgenerierung Reaktionsgeschwindigkeit von GeminiLive-Befehlen Plattformübergreifende Demo von GeminiLive Tipps zur Entwicklung und Fehlerbehebung bei GeminiLive Best Practices für GeminiLive-Szenarien

Empfohlene Tools

Mehr