Google은 개발자 업데이트를 통해 Gemini 2.5 Flash 네이티브 오디오 Live 의 프리뷰를 공개했습니다. 이는 Gemini Live 모델의 최신 버전이며, 함수 호출 안정성과 자연스러운 대화 품질 향상에 중점을 두고 있습니다. 이 모델은 네이티브 오디오를 사용하여 입력과 출력을 처리하여 기존 ASR/TTS 캐스케이드와 관련된 지연 시간과 왜곡을 줄입니다. 대화 중 중단 및 재개 기능을 지원하며, 실시간 음성 비서, 고객 서비스 상담원, 라이브 데모와 같은 시나리오를 대상으로 합니다.
공식 문서에 따르면 Live API는 지연 시간이 짧은 양방향 혼합 음성/비디오 및 텍스트 입력을 지원합니다. 모델은 대화 내에서 직접 도구 호출을 트리거하고 구조화된 결과를 반환할 수 있습니다. 이 미리보기 버전은 현재 Google AI Studio에서 체험판으로 제공되며, Vertex AI 및 Gemini API 문서도 동시에 업데이트됩니다. 개발자는 Live API 가이드를 따라 통합하고 테스트할 수 있습니다. 변경 로그에 따르면 네이티브 오디오 모델은 2025년 9월 23일에 미리보기로 제공될 예정입니다.
자주 묻는 질문
Q: 이번 제미니 라이브의 핵심 개선 사항은 무엇인가요?
답변: 네이티브 오디오 모델은 온라인이어서 함수 호출이 더 안정적이고 정확합니다. 음성 대화도 더 자연스럽고, 중간에 중단하고 바로 답변을 이어갈 수 있습니다.
Q: 어디에서 체험할 수 있나요?
A: Google AI Studio의 라이브 포털이 이제 온라인 체험을 위해 오픈되었습니다.
질문: Live API는 어떤 입력과 출력을 처리할 수 있나요?
A: 텍스트, 오디오 및 비디오 입력, 텍스트 및 오디오 출력, 실시간 양방향 스트리밍 지원.
질문: 이게 공식 버전인가요?
A: 현재 미리보기 상태입니다. 구체적인 기능 및 할당량은 공식 문서와 콘솔을 참조하세요.
질문: 이번 작품은 이전의 제미니 라이브와 어떻게 다릅니까?
답변: 단일 네이티브 오디오 모델을 사용하면 STT/TTS 캐스케이딩이 줄어들어 지연 시간이 짧아지고 도구 호출 성능이 더욱 안정됩니다.