Google 推出 Gemini 音频模型新进展：Translate 实时翻译、TTS 预览版与 Native Audio 更新

AI资讯 • Admin • 2025/12/13 • 147 次浏览

Google 宣布把 Gemini 的翻译与音频能力更深度带入 Google Translate，并同步更新 Gemini 2.5 系列的文本转语音与原生音频模型。Google Translate 将推出“耳机实时语音到语音翻译”的 Beta 体验，可在对话或持续收听场景下进行实时翻译，并尽量保留说话者的语气、重音与节奏，让译文更像“人在说话”。

该 Beta 体验已在 Android 端的美国、墨西哥和印度等地区分批开放，支持任意耳机，并覆盖 70 多种语言；Google 也表示将在 2026 年扩展到 iOS 与更多国家和地区。与此同时，Google DeepMind 在 12 月 10 日发布 Gemini 2.5 Flash 与 2.5 Pro 的 Text-to-Speech 预览版更新，强调对风格提示更贴合、可按语境自动调节语速与停顿，并提升多角色对话时的“角色音色一致性”，适用于播客、配音、教学与客服等多说话人场景。

在实时语音交互方面，Gemini 2.5 Flash Native Audio 也获得更新，主打更好地处理复杂流程、遵循用户指令与保持自然多轮对话，并已在 Google AI Studio、Vertex AI 等产品中提供相关能力入口；不过上述新功能多处于 Beta/Preview 阶段，仍可能出现误译、口音偏差或风格不稳定等问题，使用时需留意隐私与环境噪声对效果的影响。

常见问题

Q：Google Translate 的耳机实时翻译是什么功能？

A：Google Translate 在 Beta 中提供实时语音到语音翻译，可在佩戴耳机时边听边译，并尽量保留说话语气与节奏。

Q：Google Translate 的耳机实时翻译在哪些地区先上线？

A：该 Beta 先在 Android 端的美国、墨西哥、印度等地区分批开放，并计划在 2026 年扩展到 iOS 与更多国家地区。

Q：Google Translate 的耳机实时翻译支持哪些语言？

A：该 Beta 宣称支持 70 多种语言，具体可用语言会随地区与版本逐步更新。

Q：Gemini 2.5 Flash 与 2.5 Pro 的 Text-to-Speech 更新改了什么？

A：更新重点是更贴合风格提示、语速与停顿更“懂语境”，以及多说话人场景下的角色音色更一致。

Q：Gemini 2.5 Flash Native Audio 更新适合什么用途？

A：该更新面向实时语音代理与对话应用，强调更强的指令遵循、多轮对话连贯性与复杂任务流程处理能力。

Google 推出 Gemini 音频模型新进展：Translate 实时翻译、TTS 预览版与 Native Audio 更新

相关文章

MyPrompt.cc 是什么网站？一文带你看懂

Google Labs 上新 Disco 与 GenTabs：用 Gemini 3 把网页标签“重混”为可用应用

MWC 上海办机器人点球赛：具身智能走向公开考场

Codex 支持 Windows 控制：AI编程代理开始跨端协作

推荐工具

Google 推出 Gemini 音频模型新进展：Translate 实时翻译、TTS 预览版与 Native Audio 更新

相关文章

MyPrompt.cc 是什么网站？一文带你看懂

Google Labs 上新 Disco 与 GenTabs：用 Gemini 3 把网页标签“重混”为可用应用

MWC 上海办机器人点球赛：具身智能走向公开考场

Codex 支持 Windows 控制：AI编程代理开始跨端协作

推荐工具

提交AI工具

请确认提交信息