Retour à Informations sur l’IA
Google lance l'aperçu audio natif de Gemini 2.5 Flash Live, rendant les conversations vocales plus naturelles

Google lance l'aperçu audio natif de Gemini 2.5 Flash Live, rendant les conversations vocales plus naturelles

Informations sur l’IA Admin 32 vues

Google a publié un aperçu de Gemini 2.5 Flash audio natif Live dans une mise à jour destinée aux développeurs. Il s'agit de la dernière itération du modèle Gemini Live, axée sur l'amélioration de la fiabilité des appels de fonctions et du naturel conversationnel. Ce modèle traite les entrées et les sorties en utilisant l'audio natif, réduisant ainsi la latence et la distorsion associées aux cascades ASR/TTS traditionnelles. Il prend en charge les interruptions et les reprises pendant les conversations et est destiné à des scénarios tels que les assistants vocaux en temps réel, les agents du service client et les démonstrations en direct.

Selon la documentation officielle, l'API Live prend en charge la saisie mixte voix/vidéo et texte bidirectionnelle à faible latence. Les modèles peuvent déclencher des appels d'outils directement dans une conversation et renvoyer des résultats structurés. Cette version préliminaire est disponible dès maintenant en essai dans Google AI Studio, avec des mises à jour simultanées de la documentation de Vertex AI et des API Gemini. Les développeurs peuvent suivre le guide de l'API Live pour l'intégrer et la tester. Le journal des modifications indique que le modèle audio natif sera disponible en version préliminaire le 23 septembre 2025.

Questions fréquemment posées

Q : Quelles sont les principales améliorations de Gemini Live cette fois-ci ?

R : Le modèle audio natif est en ligne, les appels de fonction sont plus stables et précis ; les conversations vocales sont plus naturelles et vous pouvez interrompre et continuer la réponse immédiatement.

Q : Où puis-je en faire l'expérience ?

R : Le portail en direct de Google AI Studio est désormais ouvert pour un essai en ligne.

Q : Quelles entrées et sorties l’API Live peut-elle gérer ?

A : Entrée texte, audio et vidéo ; sortie texte et audio, prenant en charge le streaming bidirectionnel en temps réel.

Q : Est-ce la version officielle ?

R : Ceci est une version préliminaire. Veuillez consulter la documentation officielle et la console pour connaître les fonctionnalités et les quotas spécifiques.

Q : En quoi est-ce différent des précédentes vies Gemini ?

R : L’utilisation d’un seul modèle audio natif réduit la cascade STT/TTS, ce qui se traduit par une latence plus faible et des performances d’appel d’outils plus stables.

Audio natif GeminiLive Aperçu Flash de GeminiLive2.5 Amélioration de l'appel de fonction GeminiLive GeminiLive, assistant vocal en temps réel Solution de siège de service client GeminiLive Démo en direct de GeminiLive Conversation à faible latence GeminiLive GeminiLive peut être interrompu à mi-chemin Réponse instantanée GeminiLive Diffusion bidirectionnelle GeminiLive Entrée et sortie audio GeminiLive Transmission mixte vidéo et texte GeminiLive L'appel à l'outil GeminiLive est stable Résultats structurés de GeminiLive Essai de GeminiLiveAIStudio Accès GeminiLiveVertexAI Guide de l'API GeminiLiveGemini Mise à jour des développeurs GeminiLive Aperçu de GeminiLive 2025-09-23 Points forts du journal des modifications de GeminiLive Comparaison en cascade GeminiLiveASR_TTS GeminiLive réduit la latence et la distorsion Les conversations GeminiLive deviennent plus naturelles Fiabilité des appels de fonction GeminiLive Conversation multi-tours en temps réel GeminiLive Conversion voix-texte GeminiLive sans cascade Scénarios de visioconférence GeminiLive Intégration intelligente du service client GeminiLive Déclencheur de chaîne d'outils GeminiLive GeminiLiveWebhook revient Quotas et limites de GeminiLive Description de l'aperçu de GeminiLive Exemple d'accès GeminiLive Appel GeminiLiveSDK Idée GeminiLiveWebRTC Autorisations du microphone GeminiLive Compatible avec le navigateur GeminiLive GeminiLive Suppression du bruit et écho Segmentation des phrases et traitement des pauses GeminiLive Conception de mots d'invite GeminiLive Conception du schéma de fonction GeminiLive GeminiLive Sécurité et conformité Coût et facturation de GeminiLive GeminiLive comparé aux précédents Live Modèle audio natif GeminiLive Génération de sous-titres en temps réel GeminiLive Vitesse de réponse des commandes GeminiLive Démo multiplateforme de GeminiLive Conseils de développement et de débogage GeminiLive Meilleures pratiques pour les scénarios GeminiLive

Outils Recommandés

Plus