구글, 제미니 2.5 플래시 라이브 네이티브 오디오 미리보기 출시…음성 대화 더욱 자연스럽게

AI 정보 • Admin • 2025. 9. 24. • 66 회 조회

Google은 개발자 업데이트를 통해 Gemini 2.5 Flash 네이티브 오디오 Live 의 프리뷰를 공개했습니다. 이는 Gemini Live 모델의 최신 버전이며, 함수 호출 안정성과 자연스러운 대화 품질 향상에 중점을 두고 있습니다. 이 모델은 네이티브 오디오를 사용하여 입력과 출력을 처리하여 기존 ASR/TTS 캐스케이드와 관련된 지연 시간과 왜곡을 줄입니다. 대화 중 중단 및 재개 기능을 지원하며, 실시간 음성 비서, 고객 서비스 상담원, 라이브 데모와 같은 시나리오를 대상으로 합니다.

공식 문서에 따르면 Live API는 지연 시간이 짧은 양방향 혼합 음성/비디오 및 텍스트 입력을 지원합니다. 모델은 대화 내에서 직접 도구 호출을 트리거하고 구조화된 결과를 반환할 수 있습니다. 이 미리보기 버전은 현재 Google AI Studio에서 체험판으로 제공되며, Vertex AI 및 Gemini API 문서도 동시에 업데이트됩니다. 개발자는 Live API 가이드를 따라 통합하고 테스트할 수 있습니다. 변경 로그에 따르면 네이티브 오디오 모델은 2025년 9월 23일에 미리보기로 제공될 예정입니다.

자주 묻는 질문

Q: 이번 제미니 라이브의 핵심 개선 사항은 무엇인가요?

답변: 네이티브 오디오 모델은 온라인이어서 함수 호출이 더 안정적이고 정확합니다. 음성 대화도 더 자연스럽고, 중간에 중단하고 바로 답변을 이어갈 수 있습니다.

Q: 어디에서 체험할 수 있나요?

A: Google AI Studio의 라이브 포털이 이제 온라인 체험을 위해 오픈되었습니다.

질문: Live API는 어떤 입력과 출력을 처리할 수 있나요?

A: 텍스트, 오디오 및 비디오 입력, 텍스트 및 오디오 출력, 실시간 양방향 스트리밍 지원.

질문: 이게 공식 버전인가요?

A: 현재 미리보기 상태입니다. 구체적인 기능 및 할당량은 공식 문서와 콘솔을 참조하세요.

질문: 이번 작품은 이전의 제미니 라이브와 어떻게 다릅니까?

답변: 단일 네이티브 오디오 모델을 사용하면 STT/TTS 캐스케이딩이 줄어들어 지연 시간이 짧아지고 도구 호출 성능이 더욱 안정됩니다.

구글, 제미니 2.5 플래시 라이브 네이티브 오디오 미리보기 출시…음성 대화 더욱 자연스럽게

관련 기사

Qwen Chat 여행 계획자가 출시되었습니다. Amap 및 Fliggy 인터페이스를 기반으로 매일 여행 일정을 생성합니다.

OpenAI에서 Codex CLI 0.40 출시: 기본 모델이 gpt-5-codex로 전환되고 /review가 추가되었습니다.

Kimi K3 공식 출시: 2.8조 매개변수, 수백만 개의 맥락에 베팅 및 오픈 웨이트

Mistral Studio, 프롬프트 버전 관리 기능 추가: 엔터프라이즈 AI가 이제 행동 자산을 관리하고 있습니다

추천 도구

구글, 제미니 2.5 플래시 라이브 네이티브 오디오 미리보기 출시…음성 대화 더욱 자연스럽게

관련 기사

Qwen Chat 여행 계획자가 출시되었습니다. Amap 및 Fliggy 인터페이스를 기반으로 매일 여행 일정을 생성합니다.

OpenAI에서 Codex CLI 0.40 출시: 기본 모델이 gpt-5-codex로 전환되고 /review가 추가되었습니다.

Kimi K3 공식 출시: 2.8조 매개변수, 수백만 개의 맥락에 베팅 및 오픈 웨이트

Mistral Studio, 프롬프트 버전 관리 기능 추가: 엔터프라이즈 AI가 이제 행동 자산을 관리하고 있습니다

추천 도구

AI 도구 제출

제출 정보를 확인해주세요