戻るAI情報
GoogleがGemini 2.5 Flash Liveネイティブオーディオプレビューをリリース、音声会話がより自然になる

GoogleがGemini 2.5 Flash Liveネイティブオーディオプレビューをリリース、音声会話がより自然になる

AI情報 Admin 32 回閲覧

Googleは開発者向けアップデートで、 Gemini 2.5 FlashネイティブオーディオLiveのプレビューを公開しました。これはGemini Liveモデルの最新版であり、関数呼び出しの信頼性と会話の自然さの向上に重点を置いています。このモデルはネイティブオーディオを使用して入出力を処理するため、従来のASR/TTSカスケードに伴う遅延と歪みが低減されます。会話中の中断と再開をサポートし、リアルタイム音声アシスタント、カスタマーサービスエージェント、ライブデモンストレーションなどのシナリオを対象としています。

公式ドキュメントによると、Live APIは低遅延の双方向音声/動画/テキスト入力をサポートしています。モデルは会話内から直接ツール呼び出しをトリガーし、構造化された結果を返すことができます。このプレビュー版は現在Google AI Studioで試用可能で、Vertex AIおよびGemini APIのドキュメントも同時に更新されています。開発者はLive APIガイドに従って統合およびテストを行うことができます。変更ログによると、ネイティブオーディオモデルは2025年9月23日にプレビュー版として利用可能になる予定です。

よくある質問

Q: 今回の Gemini Live の中心的な改良点は何ですか?

A: ネイティブオーディオモデルがオンラインになり、関数呼び出しがより安定して正確になり、音声会話がより自然になり、中断してすぐに回答を続けることができます。

Q: どこで体験できますか?

A: Google AI Studio のライブ ポータルがオンライン トライアル用にオープンしました。

Q: Live API はどのような入力と出力を処理できますか?

A: テキスト、オーディオ、ビデオの入力、テキストとオーディオの出力、リアルタイムの双方向ストリーミングをサポートします。

Q: これは正式版ですか?

A: これはプレビュー段階です。具体的な機能とクォータについては、公式ドキュメントとコンソールを参照してください。

Q: これまでの Gemini Lives とどう違うのですか?

A: 単一のネイティブオーディオモデルを使用すると、STT/TTS カスケードが削減され、レイテンシが低減し、ツール呼び出しのパフォーマンスがより安定します。

GeminiLiveネイティブオーディオ GeminiLive2.5 フラッシュプレビュー GeminiLive 関数呼び出しの強化 GeminiLiveリアルタイム音声アシスタント GeminiLive カスタマーサービスシートソリューション GeminiLiveライブデモ GeminiLive 低遅延会話 GeminiLiveは途中で中断される可能性があります GeminiLiveの即時回答 GeminiLive双方向ストリーミング GeminiLive オーディオ入力と出力 GeminiLiveビデオとテキストの混合伝送 GeminiLiveツールの呼び出しは安定しています GeminiLiveの構造化された結果 GeminiLiveAIStudio トライアル GeminiLiveVertexAI アクセス GeminiLiveGeminiAPI ガイド GeminiLive 開発者アップデート ジェミニライブ 2025-09-23 プレビュー GeminiLive 変更ログのハイライト GeminiLiveASR_TTS カスケード比較 GeminiLiveは遅延と歪みを軽減します GeminiLiveの会話がより自然になります GeminiLive関数呼び出しの信頼性 GeminiLive リアルタイムマルチラウンド会話 GeminiLive 音声テキスト変換(カスケードなし) GeminiLiveビデオ会議シナリオ GeminiLive インテリジェントカスタマーサービス統合 GeminiLive ツールチェーントリガー GeminiLiveWebhookが返される GeminiLive のクォータと制限 GeminiLive プレビューの説明 GeminiLive アクセス例 GeminiLiveSDK呼び出し GeminiLiveWebRTC アイデア GeminiLive マイクの権限 GeminiLiveブラウザ対応 GeminiLive ノイズキャンセリングとエコー GeminiLive の文分割と一時停止処理 GeminiLive プロンプトワードデザイン GeminiLive 関数スキーマ設計 GeminiLiveのセキュリティとコンプライアンス GeminiLive の料金と請求 GeminiLiveと過去のLiveの比較 GeminiLiveネイティブオーディオモデル GeminiLive リアルタイム字幕生成 GeminiLiveコマンド応答速度 GeminiLive クロスプラットフォームデモ GeminiLive 開発とデバッグのヒント GeminiLiveシナリオのベストプラクティス

関連記事

Qwen Chat Travel Plannerが利用可能になりました。AmapとFliggyのインターフェースを搭載し、毎日の旅程を作成します。

Qwen Chat Travel Plannerが利用可能になりました。AmapとFliggyのインターフェースを搭載し、毎日の旅程を作成します。

Qwenは、Qwen Chat内にトラベルプランナーをリリースすることを発表しました。AmapとFliggyの検索機能を活用し、ホテルや交通機関のおすすめ、観光スポット、時間計画などを含む毎日の旅程を...

OpenAIがCodex CLI 0.40をリリース: デフォルトモデルをgpt-5-codexに切り替え、/reviewを追加

OpenAIがCodex CLI 0.40をリリース: デフォルトモデルをgpt-5-codexに切り替え、/reviewを追加

Codex CLI バージョン 0.40 では、OpenAI はデフォルトモデルを gpt-5-codex に切り替え、開発者向けの改善をいくつか導入しました。セッションコンテキストが 220k トー...

MWC上海がロボットのペナルティシュートアウトを開催:具現化された知能が公衆試験会場に移動する

MWC上海がロボットのペナルティシュートアウトを開催:具現化された知能が公衆試験会場に移動する

2026年6月1日、IT HomeはGSMAが本日、2026年6月24日から25日まで上海MWCでテーマイベントとして「ヒューマノイドロボットペナルティシュートアウト」を開催することを正式に発表したと...

CodexがWindows制御をサポートする:AIプログラミングエージェントがクロスプラットフォームコラボレーションを開始

CodexがWindows制御をサポートする:AIプログラミングエージェントがクロスプラットフォームコラボレーションを開始

2026年6月1日時点でも、OpenAIヘルプセンターのChatGPTリリースノートは最新の更新として表示されています。5月29日のエントリーには次のように記載されています:Codexは現在、Code...

おすすめツール

もっと見る