구글, Gemini 오디오 모델의 새로운 개발 소식을 공개하다: 실시간 번역, TTS 미리보기, 그리고 네이티브 오디오 업데이트

AI 정보 • Admin • 2025. 12. 13. • 147 회 조회

구글은 제미니의 번역 및 오디오 기능을 구글 번역에 도입할 것이며, 동시에 제미니 2.5 시리즈의 텍스트 음성 변환 및 네이티브 오디오 모델도 업데이트할 것이라고 발표했습니다. 구글 번역은 "헤드셋 실시간 음성 대기 번역" 베타 경험을 출시할 예정인데, 이는 대화 또는 연속 청취 상황에서 실시간으로 번역할 수 있으며, 화자의 어조, 억양, 리듬을 유지해 번역을 "사람들의 대화"처럼 보이게 하려고 합니다.

베타 경험은 미국, 멕시코, 인도에서 안드로이드에서 배치로 제공되며, 모든 헤드셋을 지원하고 70개 이상의 언어를 커버합니다. 구글은 또한 2026년에 더 많은 국가와 지역을 대상으로 iOS로 확장할 것이라고 밝혔습니다. 동시에 구글 딥마인드는 12월 10일 Gemini 2.5 Flash와 2.5 Pro용 텍스트-음성 변환 미리보기 업데이트를 공개했으며, 스타일 신호에 더 적합하고, 문맥에 따른 음성 속도와 일시정지 자동 조정, 그리고 다문자 대화에서 '캐릭터 음색 일관성' 개선을 강조했으며, 이는 팟캐스트, 더빙, 교육, 고객 서비스 등 다중 화자 상황에 적합합니다.

실시간 음성 상호작용 측면에서도 Gemini 2.5 Flash Native Audio는 복잡한 프로세스 처리, 사용자 지시 준수, 자연스러운 다중 턴 대화 유지에 중점을 두고 업데이트되었으며, Google AI Studio, Vertex AI 등 제품에 관련 기능 포털을 제공했습니다. 하지만 위에 언급된 대부분의 신규 기능은 아직 베타/미리보기 단계에 있으며, 오번역, 억양 편차, 스타일 불안정 같은 문제가 여전히 있을 수 있으므로, 사용 시 프라이버시와 환경 소음이 효과에 미치는 영향을 주의해야 합니다.

자주 묻는

질문: 구글 번역의 헤드폰 실시간 번역 기능은 무엇인가요?

A: 구글 번역은 베타 버전에서 실시간 음성 대기 번역을 제공하여, 헤드폰을 착용한 채 듣고 말의 톤과 리듬을 유지할 수 있습니다.

Q: 구글 번역의 실시간 번역은 어느 지역에서 먼저 출시되나요?

A: 베타는 미국, 멕시코, 인도 및 안드로이드 측의 다른 지역에서 배치로 제공되며, 2026년에는 iOS 및 더 많은 국가와 지역으로 확장될 계획입니다.

Q: 구글 번역의 헤드셋 실시간 번역은 어떤 언어를 지원하나요?

A: 베타 버전은 70개 이상의 언어를 지원한다고 주장하며, 사용 가능한 특정 언어들은 지역과 버전에 따라 점진적으로 업데이트될 예정입니다.

Q: Gemini 2.5 플래시와 2.5 프로의 텍스트 음성 변환 업데이트에서 어떤 변화가 있나요?

A: 이번 업데이트의 초점은 스타일 신호를 더 잘 맞추고, 속도와 멈춤이 더 '맥락적'이며, 다중 화자 장면에서 캐릭터 음색이 더 일관되게 만드는 데 있습니다.

Q: Gemini 2.5 플래시 네이티브 오디오 업데이트는 어떤 용도로 적합한가요?

A: 이번 업데이트는 실시간 음성 상담원 및 대화 애플리케이션을 대상으로 하며, 강력한 명령어 준수, 다중 라운드 대화 일관성, 복잡한 작업 처리 능력을 강조합니다.

구글, Gemini 오디오 모델의 새로운 개발 소식을 공개하다: 실시간 번역, TTS 미리보기, 그리고 네이티브 오디오 업데이트

관련 기사

MyPrompt.cc 웹사이트가 무엇인가요? 글은 이해하는 데 도움이 될 것입니다

Google Labs의 New Disco and GenTabs: Gemini 3를 사용해 웹 태그를 '리믹스'하여 사용 가능한 앱으로 만들기

MWC 상하이에서 로봇 페널티 슈팅아웃을 개최합니다: 구현된 지능이 공공 시험장으로 이동

Codex가 Windows 제어를 지원하다: AI 프로그래밍 에이전트가 크로스 플랫폼 협업을 시작하다

추천 도구

구글, Gemini 오디오 모델의 새로운 개발 소식을 공개하다: 실시간 번역, TTS 미리보기, 그리고 네이티브 오디오 업데이트

관련 기사

MyPrompt.cc 웹사이트가 무엇인가요? 글은 이해하는 데 도움이 될 것입니다

Google Labs의 New Disco and GenTabs: Gemini 3를 사용해 웹 태그를 '리믹스'하여 사용 가능한 앱으로 만들기

MWC 상하이에서 로봇 페널티 슈팅아웃을 개최합니다: 구현된 지능이 공공 시험장으로 이동

Codex가 Windows 제어를 지원하다: AI 프로그래밍 에이전트가 크로스 플랫폼 협업을 시작하다

추천 도구

AI 도구 제출

제출 정보를 확인해주세요