Google a publié un aperçu de Gemini 2.5 Flash audio natif Live dans une mise à jour destinée aux développeurs. Il s'agit de la dernière itération du modèle Gemini Live, axée sur l'amélioration de la fiabilité des appels de fonctions et du naturel conversationnel. Ce modèle traite les entrées et les sorties en utilisant l'audio natif, réduisant ainsi la latence et la distorsion associées aux cascades ASR/TTS traditionnelles. Il prend en charge les interruptions et les reprises pendant les conversations et est destiné à des scénarios tels que les assistants vocaux en temps réel, les agents du service client et les démonstrations en direct.
Selon la documentation officielle, l'API Live prend en charge la saisie mixte voix/vidéo et texte bidirectionnelle à faible latence. Les modèles peuvent déclencher des appels d'outils directement dans une conversation et renvoyer des résultats structurés. Cette version préliminaire est disponible dès maintenant en essai dans Google AI Studio, avec des mises à jour simultanées de la documentation de Vertex AI et des API Gemini. Les développeurs peuvent suivre le guide de l'API Live pour l'intégrer et la tester. Le journal des modifications indique que le modèle audio natif sera disponible en version préliminaire le 23 septembre 2025.
Questions fréquemment posées
Q : Quelles sont les principales améliorations de Gemini Live cette fois-ci ?
R : Le modèle audio natif est en ligne, les appels de fonction sont plus stables et précis ; les conversations vocales sont plus naturelles et vous pouvez interrompre et continuer la réponse immédiatement.
Q : Où puis-je en faire l'expérience ?
R : Le portail en direct de Google AI Studio est désormais ouvert pour un essai en ligne.
Q : Quelles entrées et sorties l’API Live peut-elle gérer ?
A : Entrée texte, audio et vidéo ; sortie texte et audio, prenant en charge le streaming bidirectionnel en temps réel.
Q : Est-ce la version officielle ?
R : Ceci est une version préliminaire. Veuillez consulter la documentation officielle et la console pour connaître les fonctionnalités et les quotas spécifiques.
Q : En quoi est-ce différent des précédentes vies Gemini ?
R : L’utilisation d’un seul modèle audio natif réduit la cascade STT/TTS, ce qui se traduit par une latence plus faible et des performances d’appel d’outils plus stables.