Google 推出 Gemini 2.5 Flash Live 原生音频预览版，语音对话更自然

AI资讯 • Admin • 2025/9/24 • 66 次浏览

Google 在开发者更新中发布 Gemini 2.5 Flash 原生音频 Live 预览版，并称其为最新的 Gemini Live 模型迭代，重点提升函数调用（Function Calling）可靠性与对话自然度。该模型以原生音频方式处理输入与输出，减少传统 ASR/TTS 级联带来的延迟与失真，支持在对话中随时打断与续答，面向实时语音助手、客服坐席与现场演示等场景。

根据官方文档，Live API 支持低时延的双向语音/视频与文本混合输入，模型可在会话内直接触发工具调用并返回结构化结果。此次预览版已在 Google AI Studio 提供试用入口，Vertex AI 与 Gemini API 文档同步更新，开发者可按 Live API 指南接入与测试；变更日志显示该原生音频型号于 2025 年 9 月 23 日加入预览。

常见问题

Q：这次 Gemini Live 的核心改进是什么？

A：原生音频模型上线，函数调用更稳、更准；语音对话更自然，可中途打断并即时续答。

Q：在哪里体验？

A：Google AI Studio 的 Live 入口已开放在线试用。

Q：Live API 能处理哪些输入/输出？

A：文本、音频与视频输入；文本与音频输出，支持实时双向流。

Q：是否为正式版？

A：处于预览阶段；具体能力与配额以官方文档与控制台为准。

Q：与以往 Gemini Live 有何不同？

A：采用单一原生音频模型，减少 STT/TTS 级联，带来更低时延与更稳定的工具调用表现。

Google 推出 Gemini 2.5 Flash Live 原生音频预览版，语音对话更自然

相关文章

Qwen Chat Travel Planner 上线：Amap 与 Fliggy 接口加持，生成逐日行程

OpenAI 发布 Codex CLI 0.40：默认模型切换至 gpt-5-codex，新增 /review

Kimi K3正式上线：2.8万亿参数押注百万上下文与开放权重

Mistral Studio 新增提示词版本管理：企业 AI 开始管行为资产

推荐工具

Google 推出 Gemini 2.5 Flash Live 原生音频预览版，语音对话更自然

相关文章

Qwen Chat Travel Planner 上线：Amap 与 Fliggy 接口加持，生成逐日行程

OpenAI 发布 Codex CLI 0.40：默认模型切换至 gpt-5-codex，新增 /review

Kimi K3正式上线：2.8万亿参数押注百万上下文与开放权重

Mistral Studio 新增提示词版本管理：企业 AI 开始管行为资产

推荐工具

提交AI工具

请确认提交信息