Google stellt neue Entwicklungen bei Gemini-Audiomodellen vor: Übersetzen Sie Echtzeit-Übersetzungen, TTS-Vorschau und Native Audio-Updates

KI-Informationen • Admin • 13.12.2025 • 147 Aufrufe

Google hat angekündigt, dass es die Übersetzungs- und Audiofunktionen von Gemini in Google Translate bringen und gleichzeitig die Text-zu-Sprache- und native Audiomodelle der Gemini 2.5-Serie aktualisieren wird. Google Translate wird ein Beta-Erlebnis der "Headset-Echtzeit-Sprache-zu-Sprache-Übersetzung" starten, das in Echtzeit in Konversations- oder kontinuierlichen Hörsituationen übersetzt werden kann und versucht, den Ton, Akzent und Rhythmus des Sprechers zu bewahren, um die Übersetzung mehr wie "People Talking" zu gestalten.

Die Beta-Erfahrung ist in Chargen in den USA, Mexiko und Indien auf Android verfügbar, unterstützt jedes Headset und deckt mehr als 70 Sprachen ab. Google hat außerdem angekündigt, 2026 auf iOS mit weiteren Ländern und Regionen zu expandieren. Gleichzeitig veröffentlichte Google DeepMind am 10. Dezember ein Text-to-Speech-Vorschau-Update für Gemini 2.5 Flash und 2.5 Pro, das mehr Anpassung an Stilhinweise, automatische Anpassung der Sprachgeschwindigkeit und Pausen je nach Kontext sowie verbesserte "Charakterklangkonsistenz" in mehrstelligen Dialogen betont – geeignet für Mehrsprecher-Szenarien wie Podcasting, Synchronisation, Lehre und Kundenservice.

Im Hinblick auf Echtzeit-Sprachinteraktion wurde auch Gemini 2.5 Flash Native Audio aktualisiert, mit Fokus auf eine bessere Handhabung komplexer Prozesse, das Befolgen von Benutzeranweisungen und die Aufrechterhaltung natürlicher Mehrrunden-Gespräche und bietet relevante Fähigkeitsportale in Google AI Studio, Vertex AI und anderen Produkten. Allerdings befinden sich die meisten der oben genannten neuen Funktionen noch in der Beta-/Vorschauphase, und es kann weiterhin Probleme wie Fehlübersetzungen, Akzentabweichungen oder Stilinstabilität geben, daher sollten Sie beim Nutzen auf die Auswirkungen von Privatsphäre und Umgebungsgeräuschen auf diese Wirkung achten.

FAQs

F: Was ist die Funktion der Echtzeit-Übersetzung von Kopfhörern von Google Translate?

A: Google Translate bietet eine Echtzeit-Sprach-zu-Sprache-Übersetzung in der Beta, mit der Sie mit Kopfhörern hören und versuchen, Ton und Rhythmus Ihrer Sprache zu bewahren.

F: In welchen Regionen wird die Echtzeit-Übersetzung von Google Translate zuerst veröffentlicht?

A: Die Beta wird in den Vereinigten Staaten, Mexiko, Indien und anderen Regionen auf der Android-Seite in Chargen verfügbar sein und soll 2026 auf iOS sowie weitere Länder und Regionen ausgeweitet werden.

F: Welche Sprachen unterstützt das Echtzeit-Übersetzungs-Headset von Google Translate?

A: Die Beta behauptet, mehr als 70 Sprachen zu unterstützen, und die verfügbaren spezifischen Sprachen werden nach und nach mit Region und Version aktualisiert.

F: Was hat sich im Text-to-Speech-Update für Gemini 2.5 Flash und 2.5 Pro geändert?

A: Der Fokus des Updates liegt darauf, die Stilhinweise besser zu erfüllen, die Geschwindigkeit und Pausen sind "kontextabhängiger" und der Klangfarbe der Charaktere ist in Mehrsprecher-Szenen konsistenter.

F: Wofür eignet sich das Gemini 2.5 Flash Native Audio-Update?

A: Dieses Update richtet sich an Echtzeit-Sprachagenten- und Konversationsanwendungen und betont stärkere Instruktionskonformität, Mehrrunden-Konversationskohärenz und komplexe Aufgabenprozessverarbeitungsfähigkeiten.

Google stellt neue Entwicklungen bei Gemini-Audiomodellen vor: Übersetzen Sie Echtzeit-Übersetzungen, TTS-Vorschau und Native Audio-Updates

Verwandte Artikel

Was ist MyPrompt.cc Website? Ein Artikel hilft Ihnen zu verstehen

Neue Disco und GenTabs auf Google Labs: Nutze Gemini 3, um Webtags in brauchbare Apps zu "remixen"

MWC Shanghai richtet das Roboter-Elfmeterschießen aus: Verkörperte Intelligenz zieht in den öffentlichen Prüfungsort ein

Codex unterstützt Windows-Steuerung: KI-Programmieragenten beginnen plattformübergreifende Zusammenarbeit

Empfohlene Tools

Google stellt neue Entwicklungen bei Gemini-Audiomodellen vor: Übersetzen Sie Echtzeit-Übersetzungen, TTS-Vorschau und Native Audio-Updates

Verwandte Artikel

Was ist MyPrompt.cc Website? Ein Artikel hilft Ihnen zu verstehen

Neue Disco und GenTabs auf Google Labs: Nutze Gemini 3, um Webtags in brauchbare Apps zu "remixen"

MWC Shanghai richtet das Roboter-Elfmeterschießen aus: Verkörperte Intelligenz zieht in den öffentlichen Prüfungsort ein

Codex unterstützt Windows-Steuerung: KI-Programmieragenten beginnen plattformübergreifende Zusammenarbeit

Empfohlene Tools

KI-Tool einreichen

Bitte bestätigen Sie die Einreichungsinformationen