Google 宣布把 Gemini 的翻译与音频能力更深度带入 Google Translate,并同步更新 Gemini 2.5 系列的文本转语音与原生音频模型。Google Translate 将推出“耳机实时语音到语音翻译”的 Beta 体验,可在对话或持续收听场景下进行实时翻译,并尽量保留说话者的语气、重音与节奏,让译文更像“人在说话”。
该 Beta 体验已在 Android 端的美国、墨西哥和印度等地区分批开放,支持任意耳机,并覆盖 70 多种语言;Google 也表示将在 2026 年扩展到 iOS 与更多国家和地区。与此同时,Google DeepMind 在 12 月 10 日发布 Gemini 2.5 Flash 与 2.5 Pro 的 Text-to-Speech 预览版更新,强调对风格提示更贴合、可按语境自动调节语速与停顿,并提升多角色对话时的“角色音色一致性”,适用于播客、配音、教学与客服等多说话人场景。
在实时语音交互方面,Gemini 2.5 Flash Native Audio 也获得更新,主打更好地处理复杂流程、遵循用户指令与保持自然多轮对话,并已在 Google AI Studio、Vertex AI 等产品中提供相关能力入口;不过上述新功能多处于 Beta/Preview 阶段,仍可能出现误译、口音偏差或风格不稳定等问题,使用时需留意隐私与环境噪声对效果的影响。
常见问题
Q:Google Translate 的耳机实时翻译是什么功能?
A:Google Translate 在 Beta 中提供实时语音到语音翻译,可在佩戴耳机时边听边译,并尽量保留说话语气与节奏。
Q:Google Translate 的耳机实时翻译在哪些地区先上线?
A:该 Beta 先在 Android 端的美国、墨西哥、印度等地区分批开放,并计划在 2026 年扩展到 iOS 与更多国家地区。
Q:Google Translate 的耳机实时翻译支持哪些语言?
A:该 Beta 宣称支持 70 多种语言,具体可用语言会随地区与版本逐步更新。
Q:Gemini 2.5 Flash 与 2.5 Pro 的 Text-to-Speech 更新改了什么?
A:更新重点是更贴合风格提示、语速与停顿更“懂语境”,以及多说话人场景下的角色音色更一致。
Q:Gemini 2.5 Flash Native Audio 更新适合什么用途?
A:该更新面向实时语音代理与对话应用,强调更强的指令遵循、多轮对话连贯性与复杂任务流程处理能力。