返回AI资讯
Google 推出 Gemini 2.5 Flash Live 原生音频预览版,语音对话更自然

Google 推出 Gemini 2.5 Flash Live 原生音频预览版,语音对话更自然

AI资讯 Admin 32 次浏览

Google 在开发者更新中发布 Gemini 2.5 Flash 原生音频 Live 预览版,并称其为最新的 Gemini Live 模型迭代,重点提升函数调用(Function Calling)可靠性与对话自然度。该模型以原生音频方式处理输入与输出,减少传统 ASR/TTS 级联带来的延迟与失真,支持在对话中随时打断与续答,面向实时语音助手、客服坐席与现场演示等场景。

根据官方文档,Live API 支持低时延的双向语音/视频与文本混合输入,模型可在会话内直接触发工具调用并返回结构化结果。此次预览版已在 Google AI Studio 提供试用入口,Vertex AI 与 Gemini API 文档同步更新,开发者可按 Live API 指南接入与测试;变更日志显示该原生音频型号于 2025 年 9 月 23 日加入预览。

常见问题

Q:这次 Gemini Live 的核心改进是什么?

A:原生音频模型上线,函数调用更稳、更准;语音对话更自然,可中途打断并即时续答。

Q:在哪里体验?

A:Google AI Studio 的 Live 入口已开放在线试用。

Q:Live API 能处理哪些输入/输出?

A:文本、音频与视频输入;文本与音频输出,支持实时双向流。

Q:是否为正式版?

A:处于预览阶段;具体能力与配额以官方文档与控制台为准。

Q:与以往 Gemini Live 有何不同?

A:采用单一原生音频模型,减少 STT/TTS 级联,带来更低时延与更稳定的工具调用表现。

推荐工具

更多