GoogleがGemini 2.5 Flash Liveネイティブオーディオプレビューをリリース、音声会話がより自然になる

AI情報 • Admin • 2025/9/24 • 66 回閲覧

Googleは開発者向けアップデートで、 Gemini 2.5 FlashネイティブオーディオLiveのプレビューを公開しました。これはGemini Liveモデルの最新版であり、関数呼び出しの信頼性と会話の自然さの向上に重点を置いています。このモデルはネイティブオーディオを使用して入出力を処理するため、従来のASR/TTSカスケードに伴う遅延と歪みが低減されます。会話中の中断と再開をサポートし、リアルタイム音声アシスタント、カスタマーサービスエージェント、ライブデモンストレーションなどのシナリオを対象としています。

公式ドキュメントによると、Live APIは低遅延の双方向音声／動画／テキスト入力をサポートしています。モデルは会話内から直接ツール呼び出しをトリガーし、構造化された結果を返すことができます。このプレビュー版は現在Google AI Studioで試用可能で、Vertex AIおよびGemini APIのドキュメントも同時に更新されています。開発者はLive APIガイドに従って統合およびテストを行うことができます。変更ログによると、ネイティブオーディオモデルは2025年9月23日にプレビュー版として利用可能になる予定です。

よくある質問

Q: 今回の Gemini Live の中心的な改良点は何ですか?

A: ネイティブオーディオモデルがオンラインになり、関数呼び出しがより安定して正確になり、音声会話がより自然になり、中断してすぐに回答を続けることができます。

Q: どこで体験できますか？

A: Google AI Studio のライブポータルがオンライントライアル用にオープンしました。

Q: Live API はどのような入力と出力を処理できますか?

A: テキスト、オーディオ、ビデオの入力、テキストとオーディオの出力、リアルタイムの双方向ストリーミングをサポートします。

Q: これは正式版ですか？

A: これはプレビュー段階です。具体的な機能とクォータについては、公式ドキュメントとコンソールを参照してください。

Q: これまでの Gemini Lives とどう違うのですか?

A: 単一のネイティブオーディオモデルを使用すると、STT/TTS カスケードが削減され、レイテンシが低減し、ツール呼び出しのパフォーマンスがより安定します。

GoogleがGemini 2.5 Flash Liveネイティブオーディオプレビューをリリース、音声会話がより自然になる

関連記事

Qwen Chat Travel Plannerが利用可能になりました。AmapとFliggyのインターフェースを搭載し、毎日の旅程を作成します。

OpenAIがCodex CLI 0.40をリリース: デフォルトモデルをgpt-5-codexに切り替え、/reviewを追加

Kimi K3公式発表:2.8兆のパラメータが数百万のコンテキストとオープンウェイトに賭けられます

Mistral Studioがプロンプトバージョン管理を追加:エンタープライズAIが行動資産を管理しています

おすすめツール

GoogleがGemini 2.5 Flash Liveネイティブオーディオプレビューをリリース、音声会話がより自然になる

関連記事

Qwen Chat Travel Plannerが利用可能になりました。AmapとFliggyのインターフェースを搭載し、毎日の旅程を作成します。

OpenAIがCodex CLI 0.40をリリース: デフォルトモデルをgpt-5-codexに切り替え、/reviewを追加

Kimi K3公式発表:2.8兆のパラメータが数百万のコンテキストとオープンウェイトに賭けられます

Mistral Studioがプロンプトバージョン管理を追加:エンタープライズAIが行動資産を管理しています

おすすめツール

AIツールを投稿

投稿情報を確認してください