Googleは開発者向けアップデートで、 Gemini 2.5 FlashネイティブオーディオLiveのプレビューを公開しました。これはGemini Liveモデルの最新版であり、関数呼び出しの信頼性と会話の自然さの向上に重点を置いています。このモデルはネイティブオーディオを使用して入出力を処理するため、従来のASR/TTSカスケードに伴う遅延と歪みが低減されます。会話中の中断と再開をサポートし、リアルタイム音声アシスタント、カスタマーサービスエージェント、ライブデモンストレーションなどのシナリオを対象としています。
公式ドキュメントによると、Live APIは低遅延の双方向音声/動画/テキスト入力をサポートしています。モデルは会話内から直接ツール呼び出しをトリガーし、構造化された結果を返すことができます。このプレビュー版は現在Google AI Studioで試用可能で、Vertex AIおよびGemini APIのドキュメントも同時に更新されています。開発者はLive APIガイドに従って統合およびテストを行うことができます。変更ログによると、ネイティブオーディオモデルは2025年9月23日にプレビュー版として利用可能になる予定です。
よくある質問
Q: 今回の Gemini Live の中心的な改良点は何ですか?
A: ネイティブオーディオモデルがオンラインになり、関数呼び出しがより安定して正確になり、音声会話がより自然になり、中断してすぐに回答を続けることができます。
Q: どこで体験できますか?
A: Google AI Studio のライブ ポータルがオンライン トライアル用にオープンしました。
Q: Live API はどのような入力と出力を処理できますか?
A: テキスト、オーディオ、ビデオの入力、テキストとオーディオの出力、リアルタイムの双方向ストリーミングをサポートします。
Q: これは正式版ですか?
A: これはプレビュー段階です。具体的な機能とクォータについては、公式ドキュメントとコンソールを参照してください。
Q: これまでの Gemini Lives とどう違うのですか?
A: 単一のネイティブオーディオモデルを使用すると、STT/TTS カスケードが削減され、レイテンシが低減し、ツール呼び出しのパフォーマンスがより安定します。