Retour à Informations sur l’IA
Google dévoile de nouvelles avancées dans les modèles audio Gemini : traduction en temps réel, aperçu TTS et mises à jour audio natif

Google dévoile de nouvelles avancées dans les modèles audio Gemini : traduction en temps réel, aperçu TTS et mises à jour audio natif

Informations sur l’IA Admin 147 vues

Google a annoncé qu’il intégrerait les capacités de traduction et d’audio de Gemini sur Google Translate, tout en mettant à jour simultanément les modèles synthèse vocale et audio natif de la série Gemini 2.5. Google Translate lancera une expérience bêta de « traduction vocale en temps réel par casque », qui peut traduire en temps réel dans des situations d’écoute conversationnelle ou continue, et tenter de préserver le ton, l’accent et le rythme du locuteur pour rendre la traduction plus proche de « personnes parlant ».

L’expérience bêta est disponible en lots aux États-Unis, au Mexique et en Inde sur Android, prenant en charge n’importe quel casque et couvrant plus de 70 langues. Google a également annoncé qu’il s’étendrait à iOS avec plus de pays et de régions en 2026. Parallèlement, Google DeepMind a publié une mise à jour de synthèse vocale pour Gemini 2.5 Flash et 2.5 Pro le 10 décembre, mettant l’accent sur un meilleur ajustement aux indices de style, un ajustement automatique de la vitesse de la voix et des pauses selon le contexte, ainsi qu’une meilleure « cohérence du timbre des personnages » dans les dialogues multi-personnages, adaptée à des situations multi-haut-parleurs telles que le podcasting, le doublage, l’enseignement et le service client.

En matière d’interaction vocale en temps réel, Gemini 2.5 Flash Native Audio a également été mis à jour, en se concentrant sur une meilleure gestion de processus complexes, le suivi des instructions utilisateur et le maintien de conversations naturelles à plusieurs tours, et a fourni des portails de capacités pertinents dans Google AI Studio, Vertex AI et d’autres produits. Cependant, la plupart des nouvelles fonctionnalités ci-dessus sont en phase de bêta/aperçu, et il peut encore y avoir des problèmes tels que des mauvaises traductions, des déviations d’accent ou une instabilité de style, il faut donc faire attention à l’impact de la confidentialité et du bruit environnemental sur l’effet lors de l’utilisation.

FAQ

Q : Quelle est la fonction de la traduction en temps réel pour casques de Google Traduction ?

R : Google Traduction propose une traduction vocale en temps réel en version bêta, ce qui vous permet d’écouter en portant un casque et d’essayer de préserver le ton et le rythme de votre discours.

Q : Dans quelles régions la traduction en temps réel de Google Traduction sera-t-elle lancée en premier ?

R : La bêta sera disponible en lots aux États-Unis, au Mexique, en Inde et dans d’autres régions du côté Android, et il est prévu qu’elle s’étende à iOS ainsi qu’à d’autres pays et régions en 2026.

Q : Quelles langues prend en charge la traduction en temps réel du casque Google Traduction ?

R : La bêta affirme prendre en charge plus de 70 langues, et les langues spécifiques disponibles seront progressivement mises à jour selon la région et la version.

Q : Qu’est-ce qui a changé dans la mise à jour de la synthèse vocale pour Gemini 2.5 Flash et 2.5 Pro ?

R : L’objectif de la mise à jour est de mieux correspondre aux indices de style, la vitesse et les pauses sont plus « contextuelles », et le timbre des personnages est plus cohérent dans les scènes multi-haut-parleurs.

Q : À quoi sert la mise à jour native audio Flash Gemini 2.5 ?

R : Cette mise à jour vise les applications d’agents vocaux et de conversation en temps réel, mettant l’accent sur une meilleure conformité aux instructions, une cohérence de conversation sur plusieurs rondes et des capacités complexes de traitement des processus.

Google Traduction lance une expérience de traduction vocale en temps réel pour casque La traduction par casque bêta rend Google Traduction plus proche d’une vraie conversation humaine Google Traduction sur Android lance la traduction en temps réel des casques par lots La traduction en temps réel du casque Google Translate couvre plus de soixante-dix langues Google a annoncé que les capacités Gemini sont profondément intégrées à Google Traduction Google utilise Gemini pour préserver le ton et l’accent afin d’améliorer la naturalité des traductions La traduction vocale en temps réel Google Translate convient aux situations conversationnelles Le mode d’écoute continue Google Traduction permet d’écouter et de traduire pendant l’écoute Google Traduction met l’accent sur le rythme des tons et la reproduction des accents Google Translate Beta peut contenir une mauvaise traduction du biais d’accent, donc soyez prudent Google Traduction étend iOS à plus de pays et de régions en 2026 Google DeepMind publie la mise à jour preview Gemini 2.5 TTS La synthèse vocale Flash 2.5 de Gemini est plus conforme aux invites de style Gemini 2.5 Pro Synthèse vocale améliore la cohérence multi-rôle Google met à jour les capacités du modèle audio natif Gemini 2.5 Gemini 2.5 TTS ajuste automatiquement la vitesse de la parole et la pause en fonction du contexte Gemini 2.5 TTS convient au doublage de podcasts et aux scénarios d’enseignement Gemini 2.5 TTS améliore la stabilisation du timbre multi-haut-parleurs Google AI Studio propose un portail de capacités audio Gemini 2.5 Vertex AI lance des capacités audio natives Gemini 2.5 Conformité aux instructions d’amélioration audio native de Gemini 2.5 Gemini 2.5 Native Audio prend en charge les conversations vocales naturelles à plusieurs tours Mise à niveau de l’interaction vocale en temps réel de Google pour les applications d’agent vocal Google Traduction prend en charge n’importe quel casque sans avoir besoin d’un appareil dédié La traduction en temps réel du casque Google Traduction est disponible aux États-Unis, au Mexique et en Inde Les nouvelles fonctionnalités de Google Traduction prennent en compte la vie privée et les impacts sur le bruit environnemental La traduction en temps réel de Google Traduction facilite la communication entre les langues L’expérience bêta Google Translate est disponible pour les réunions de voyage et le réseautage Google Traduction se concentre sur la sortie instantanée de la parole à voix Google Traduction affiche les traductions comme si elles parlaient Google DeepMind met l’accent sur la compréhension des prompts de type TTS avec plus de précision Gemini 2.5 TTS améliore la compréhension des pauses contextuelles et des émotions Les dialogues multi-personnages utilisent Gemini 2.5 pour garder vos voix cohérentes Google pousse les capacités audio Gemini à devenir productisées Google Traduction et Gemini collaborent pour améliorer l’expérience de traduction vocale La traduction en temps réel par casque Google Translate convient aux situations d’écoute continue La traduction en temps réel de Google Traduction peut être perturbée par les accents et le bruit Google recommande d’utiliser un casque pour traduire en tenant compte de la confidentialité et de l’environnement Gemini 2.5 Flash Native Audio excelle dans les processus complexes Gemini 2.5 Native Audio rend les applications vocales plus cohérentes et naturelles Google publie des mises à jour en temps réel des capacités des modèles vocaux dans AI Studio Les développeurs d’IA Vertex peuvent utiliser la fonctionnalité audio Gemini 2.5 La version bêta de la traduction du casque Google Translate couvre plus de 70 langues Google Traduction lance un nouveau modèle pour abaisser la barrière à l’entrée dans la communication interlinguistique Google met à jour TTS avec Gemini pour adapter le service client et les multi-haut-parleurs La nouvelle bêta de Google Traduction rend la traduction en temps réel plus familière La traduction en temps réel du casque Google Translate prend en charge à la fois les modes dialogue et écoute Mise à jour du TTS Google Gemini 2.5 pour les podcasts et tutoriels en voix off La traduction casque Google Translate est lancée en même temps que la mise à niveau audio Gemini

Outils Recommandés

Plus