Google 在开发者更新中发布 Gemini 2.5 Flash 原生音频 Live 预览版,并称其为最新的 Gemini Live 模型迭代,重点提升函数调用(Function Calling)可靠性与对话自然度。该模型以原生音频方式处理输入与输出,减少传统 ASR/TTS 级联带来的延迟与失真,支持在对话中随时打断与续答,面向实时语音助手、客服坐席与现场演示等场景。
根据官方文档,Live API 支持低时延的双向语音/视频与文本混合输入,模型可在会话内直接触发工具调用并返回结构化结果。此次预览版已在 Google AI Studio 提供试用入口,Vertex AI 与 Gemini API 文档同步更新,开发者可按 Live API 指南接入与测试;变更日志显示该原生音频型号于 2025 年 9 月 23 日加入预览。
常见问题
Q:这次 Gemini Live 的核心改进是什么?
A:原生音频模型上线,函数调用更稳、更准;语音对话更自然,可中途打断并即时续答。
Q:在哪里体验?
A:Google AI Studio 的 Live 入口已开放在线试用。
Q:Live API 能处理哪些输入/输出?
A:文本、音频与视频输入;文本与音频输出,支持实时双向流。
Q:是否为正式版?
A:处于预览阶段;具体能力与配额以官方文档与控制台为准。
Q:与以往 Gemini Live 有何不同?
A:采用单一原生音频模型,减少 STT/TTS 级联,带来更低时延与更稳定的工具调用表现。