구글은 제미니의 번역 및 오디오 기능을 구글 번역에 도입할 것이며, 동시에 제미니 2.5 시리즈의 텍스트 음성 변환 및 네이티브 오디오 모델도 업데이트할 것이라고 발표했습니다. 구글 번역은 "헤드셋 실시간 음성 대기 번역" 베타 경험을 출시할 예정인데, 이는 대화 또는 연속 청취 상황에서 실시간으로 번역할 수 있으며, 화자의 어조, 억양, 리듬을 유지해 번역을 "사람들의 대화"처럼 보이게 하려고 합니다.
베타 경험은 미국, 멕시코, 인도에서 안드로이드에서 배치로 제공되며, 모든 헤드셋을 지원하고 70개 이상의 언어를 커버합니다. 구글은 또한 2026년에 더 많은 국가와 지역을 대상으로 iOS로 확장할 것이라고 밝혔습니다. 동시에 구글 딥마인드는 12월 10일 Gemini 2.5 Flash와 2.5 Pro용 텍스트-음성 변환 미리보기 업데이트를 공개했으며, 스타일 신호에 더 적합하고, 문맥에 따른 음성 속도와 일시정지 자동 조정, 그리고 다문자 대화에서 '캐릭터 음색 일관성' 개선을 강조했으며, 이는 팟캐스트, 더빙, 교육, 고객 서비스 등 다중 화자 상황에 적합합니다.
실시간 음성 상호작용 측면에서도 Gemini 2.5 Flash Native Audio는 복잡한 프로세스 처리, 사용자 지시 준수, 자연스러운 다중 턴 대화 유지에 중점을 두고 업데이트되었으며, Google AI Studio, Vertex AI 등 제품에 관련 기능 포털을 제공했습니다. 하지만 위에 언급된 대부분의 신규 기능은 아직 베타/미리보기 단계에 있으며, 오번역, 억양 편차, 스타일 불안정 같은 문제가 여전히 있을 수 있으므로, 사용 시 프라이버시와 환경 소음이 효과에 미치는 영향을 주의해야 합니다.
자주 묻는
질문: 구글 번역의 헤드폰 실시간 번역 기능은 무엇인가요?
A: 구글 번역은 베타 버전에서 실시간 음성 대기 번역을 제공하여, 헤드폰을 착용한 채 듣고 말의 톤과 리듬을 유지할 수 있습니다.
Q: 구글 번역의 실시간 번역은 어느 지역에서 먼저 출시되나요?
A: 베타는 미국, 멕시코, 인도 및 안드로이드 측의 다른 지역에서 배치로 제공되며, 2026년에는 iOS 및 더 많은 국가와 지역으로 확장될 계획입니다.
Q: 구글 번역의 헤드셋 실시간 번역은 어떤 언어를 지원하나요?
A: 베타 버전은 70개 이상의 언어를 지원한다고 주장하며, 사용 가능한 특정 언어들은 지역과 버전에 따라 점진적으로 업데이트될 예정입니다.
Q: Gemini 2.5 플래시와 2.5 프로의 텍스트 음성 변환 업데이트에서 어떤 변화가 있나요?
A: 이번 업데이트의 초점은 스타일 신호를 더 잘 맞추고, 속도와 멈춤이 더 '맥락적'이며, 다중 화자 장면에서 캐릭터 음색이 더 일관되게 만드는 데 있습니다.
Q: Gemini 2.5 플래시 네이티브 오디오 업데이트는 어떤 용도로 적합한가요?
A: 이번 업데이트는 실시간 음성 상담원 및 대화 애플리케이션을 대상으로 하며, 강력한 명령어 준수, 다중 라운드 대화 일관성, 복잡한 작업 처리 능력을 강조합니다.