Google dévoile de nouvelles avancées dans les modèles audio Gemini : traduction en temps réel, aperçu TTS et mises à jour audio natif

Informations sur l’IA • Admin • 13/12/2025 • 147 vues

Google a annoncé qu’il intégrerait les capacités de traduction et d’audio de Gemini sur Google Translate, tout en mettant à jour simultanément les modèles synthèse vocale et audio natif de la série Gemini 2.5. Google Translate lancera une expérience bêta de « traduction vocale en temps réel par casque », qui peut traduire en temps réel dans des situations d’écoute conversationnelle ou continue, et tenter de préserver le ton, l’accent et le rythme du locuteur pour rendre la traduction plus proche de « personnes parlant ».

L’expérience bêta est disponible en lots aux États-Unis, au Mexique et en Inde sur Android, prenant en charge n’importe quel casque et couvrant plus de 70 langues. Google a également annoncé qu’il s’étendrait à iOS avec plus de pays et de régions en 2026. Parallèlement, Google DeepMind a publié une mise à jour de synthèse vocale pour Gemini 2.5 Flash et 2.5 Pro le 10 décembre, mettant l’accent sur un meilleur ajustement aux indices de style, un ajustement automatique de la vitesse de la voix et des pauses selon le contexte, ainsi qu’une meilleure « cohérence du timbre des personnages » dans les dialogues multi-personnages, adaptée à des situations multi-haut-parleurs telles que le podcasting, le doublage, l’enseignement et le service client.

En matière d’interaction vocale en temps réel, Gemini 2.5 Flash Native Audio a également été mis à jour, en se concentrant sur une meilleure gestion de processus complexes, le suivi des instructions utilisateur et le maintien de conversations naturelles à plusieurs tours, et a fourni des portails de capacités pertinents dans Google AI Studio, Vertex AI et d’autres produits. Cependant, la plupart des nouvelles fonctionnalités ci-dessus sont en phase de bêta/aperçu, et il peut encore y avoir des problèmes tels que des mauvaises traductions, des déviations d’accent ou une instabilité de style, il faut donc faire attention à l’impact de la confidentialité et du bruit environnemental sur l’effet lors de l’utilisation.

FAQ

Q : Quelle est la fonction de la traduction en temps réel pour casques de Google Traduction ?

R : Google Traduction propose une traduction vocale en temps réel en version bêta, ce qui vous permet d’écouter en portant un casque et d’essayer de préserver le ton et le rythme de votre discours.

Q : Dans quelles régions la traduction en temps réel de Google Traduction sera-t-elle lancée en premier ?

R : La bêta sera disponible en lots aux États-Unis, au Mexique, en Inde et dans d’autres régions du côté Android, et il est prévu qu’elle s’étende à iOS ainsi qu’à d’autres pays et régions en 2026.

Q : Quelles langues prend en charge la traduction en temps réel du casque Google Traduction ?

R : La bêta affirme prendre en charge plus de 70 langues, et les langues spécifiques disponibles seront progressivement mises à jour selon la région et la version.

Q : Qu’est-ce qui a changé dans la mise à jour de la synthèse vocale pour Gemini 2.5 Flash et 2.5 Pro ?

R : L’objectif de la mise à jour est de mieux correspondre aux indices de style, la vitesse et les pauses sont plus « contextuelles », et le timbre des personnages est plus cohérent dans les scènes multi-haut-parleurs.

Q : À quoi sert la mise à jour native audio Flash Gemini 2.5 ?

R : Cette mise à jour vise les applications d’agents vocaux et de conversation en temps réel, mettant l’accent sur une meilleure conformité aux instructions, une cohérence de conversation sur plusieurs rondes et des capacités complexes de traitement des processus.

Google dévoile de nouvelles avancées dans les modèles audio Gemini : traduction en temps réel, aperçu TTS et mises à jour audio natif

Articles connexes

Qu’est-ce que MyPrompt.cc site web ? Un article vous aidera à comprendre

Nouveaux Disco et GenTabs sur Google Labs : Utilisez Gemini 3 pour « remixer » les balises web en applications utilisables

MWC Shanghai accueille la séance de tirs au but des robots : une intelligence incarnée s’installe dans le lieu public de l’examen

Codex prend en charge le contrôle Windows : les agents de programmation IA entament une collaboration multiplateforme

Outils Recommandés

Google dévoile de nouvelles avancées dans les modèles audio Gemini : traduction en temps réel, aperçu TTS et mises à jour audio natif

Articles connexes

Qu’est-ce que MyPrompt.cc site web ? Un article vous aidera à comprendre

Nouveaux Disco et GenTabs sur Google Labs : Utilisez Gemini 3 pour « remixer » les balises web en applications utilisables

MWC Shanghai accueille la séance de tirs au but des robots : une intelligence incarnée s’installe dans le lieu public de l’examen

Codex prend en charge le contrôle Windows : les agents de programmation IA entament une collaboration multiplateforme

Outils Recommandés

Soumettre un outil IA

Veuillez confirmer les informations de soumission