Google veröffentlicht native Audiovorschau für Gemini 2.5 Flash Live für natürlichere Sprachgespräche

KI-Informationen • Admin • 24.9.2025 • 64 Aufrufe

Google hat in einem Entwickler-Update eine Vorschau von Gemini 2.5 Flash Native Audio Live veröffentlicht und bezeichnet es als neueste Version des Gemini Live-Modells. Der Fokus liegt auf der Verbesserung der Funktionsaufrufzuverlässigkeit und der Natürlichkeit der Konversation. Dieses Modell verarbeitet Ein- und Ausgabe mit nativem Audio und reduziert so die Latenz und Verzerrungen herkömmlicher ASR/TTS-Kaskaden. Es unterstützt Unterbrechungen und Wiederaufnahmen während Gesprächen und ist auf Szenarien wie Echtzeit-Sprachassistenten, Kundendienstmitarbeiter und Live-Demonstrationen ausgerichtet.

Laut offizieller Dokumentation unterstützt die Live API latenzarme, bidirektionale gemischte Sprach-/Video- und Texteingabe. Modelle können Tool-Aufrufe direkt innerhalb einer Konversation auslösen und strukturierte Ergebnisse zurückgeben. Diese Vorschauversion steht ab sofort im Google AI Studio zum Testen bereit, gleichzeitig werden die Dokumentationen zu Vertex AI und Gemini API aktualisiert. Entwickler können der Live API-Anleitung folgen, um sie zu integrieren und zu testen. Laut Änderungsprotokoll wird das native Audiomodell am 23. September 2025 zur Vorschau verfügbar sein.

Häufig gestellte Fragen

F: Was sind diesmal die wichtigsten Verbesserungen von Gemini Live?

A: Das native Audiomodell ist online, Funktionsaufrufe sind stabiler und genauer; Sprachgespräche sind natürlicher und Sie können die Antwort sofort unterbrechen und fortsetzen.

F: Wo kann ich es erleben?

A: Das Live-Portal von Google AI Studio ist jetzt für Online-Tests geöffnet.

F: Welche Ein- und Ausgaben kann die Live-API verarbeiten?

A: Text-, Audio- und Videoeingabe; Text- und Audioausgabe, unterstützt bidirektionales Streaming in Echtzeit.

F: Ist dies die offizielle Version?

A: Dies ist eine Vorschauversion. Informationen zu spezifischen Funktionen und Kontingenten finden Sie in der offiziellen Dokumentation und Konsole.

F: Wie unterscheidet es sich von früheren Gemini Lives?

A: Durch die Verwendung eines einzelnen nativen Audiomodells wird die STT/TTS-Kaskadierung reduziert, was zu einer geringeren Latenz und einer stabileren Leistung beim Tool-Aufruf führt.

Google veröffentlicht native Audiovorschau für Gemini 2.5 Flash Live für natürlichere Sprachgespräche

Verwandte Artikel

Qwen Chat Travel Planner ist jetzt verfügbar: Unterstützt durch Amap- und Fliggy-Schnittstellen, generiert er tägliche Reiserouten

OpenAI veröffentlicht Codex CLI 0.40: wechselt das Standardmodell zu gpt-5-codex, fügt /review hinzu

Kimi K3 wurde offiziell gestartet: 2,8 Billionen Parameter mit Einsatz auf Millionen von Kontexten und offenem Gewicht

Mistral Studio fügt Prompt-Versionsmanagement hinzu: Enterprise AI verwaltet jetzt Verhaltensressourcen

Empfohlene Tools

Google veröffentlicht native Audiovorschau für Gemini 2.5 Flash Live für natürlichere Sprachgespräche

Verwandte Artikel

Qwen Chat Travel Planner ist jetzt verfügbar: Unterstützt durch Amap- und Fliggy-Schnittstellen, generiert er tägliche Reiserouten

OpenAI veröffentlicht Codex CLI 0.40: wechselt das Standardmodell zu gpt-5-codex, fügt /review hinzu

Kimi K3 wurde offiziell gestartet: 2,8 Billionen Parameter mit Einsatz auf Millionen von Kontexten und offenem Gewicht

Mistral Studio fügt Prompt-Versionsmanagement hinzu: Enterprise AI verwaltet jetzt Verhaltensressourcen

Empfohlene Tools

KI-Tool einreichen

Bitte bestätigen Sie die Einreichungsinformationen