戻るAI情報
Qwen 3.5-Omniリリース:長いオーディオとビデオの理解からリアルタイムの音声とビデオインタラクションへ

Qwen 3.5-Omniリリース:長いオーディオとビデオの理解からリアルタイムの音声とビデオインタラクションへ

AI情報 Admin 103 回閲覧

Qwen 3.5-OmniがQwenから公式にリリースされました。Qwen ChatのエクスペリエンスポータルはVoiceChatとVideoChatに向けられている。リスニングとチューニングのツールをインタラクションのラウンドに押し込みますが、モデルとオープンエリアを確認する必要があります。

まず、このアップグレードだけでなく、より多くを見る

公式今回は機能をオフラインとリアルタイムの2つのラインに分割します。オフライン側では、タイムスタンプ、ショット切り替え、スピーカーマッピングを含むビデオスクリプトを生成するスクリプトレベルのキャプションがあります。リアルタイム側では、きめ細かい音声制御、Web検索、複雑な関数呼び出しを1つのインタラクションセットに統合します。


外部資料では、最大10時間のオーディオ、400 秒の720pビデオ、113の音声認識言語または方言、36の音声生成言語または方言など、いくつかのハード指標を同時に提示し、ファミリーをPlus、Flash、Lightの3つのファイルに分割します。


まずQwen Chatに行って右下にVoice ChatまたはVideoChatがあるかどうかを確認し、開発ドキュメントに行ってOffline APIとRealtime APIポータルが表示されているかどうかを確認します。Webページが直接リアルタイムの音声やビデオをオンにでき、コンソールが対応するモデルを呼び出すことができれば、これらの機能はすでに利用可能になっていることを示します。

第四に、価値は大きいですが、境界も見る必要があります

この機能の最も実用的な意味は、単一のQ & Aではなく、音声アシスタント、ビデオ理解、会議処理、フロントエンドプロトタイプが継続的なコラボレーションに入り始めます。公式プロモーションはQwen 3.5-Omniファミリーを使用していますが、公開APIドキュメントは現在Qwen-OmniとQwen 3-Omni-Flash、Realtimeシリーズ、音声クローンはまだ段階的にエンジニアリングされていることを示しています。

関連記事

AutoClawリリース:OpenClawに、よりコンシューマ製品のようなネイティブブートポータルを提供

AutoClawリリース:OpenClawに、よりコンシューマ製品のようなネイティブブートポータルを提供

Z.aiはAutoClawのプロモーションを開始し、OpenClawのオンプレミス展開をより使いやすい新しいポータルにパッケージしました。公式はAPIキーなしですぐに利用可能で、デフォルトモデルとして...

CritiqueがM 365 Copilotに入り、複数のモデルが回答とレポートを作成

CritiqueがM 365 Copilotに入り、複数のモデルが回答とレポートを作成

マイクロソフトはCritiqueをM 365 Copilotの詳細な研究フローに組み込んだ。より大きなモデルを構築するのではなく、複数のモデルを共同で生成、レビュー、修正することが中心です。ユーザーが...

MWC上海がロボットのペナルティシュートアウトを開催:具現化された知能が公衆試験会場に移動する

MWC上海がロボットのペナルティシュートアウトを開催:具現化された知能が公衆試験会場に移動する

2026年6月1日、IT HomeはGSMAが本日、2026年6月24日から25日まで上海MWCでテーマイベントとして「ヒューマノイドロボットペナルティシュートアウト」を開催することを正式に発表したと...

CodexがWindows制御をサポートする:AIプログラミングエージェントがクロスプラットフォームコラボレーションを開始

CodexがWindows制御をサポートする:AIプログラミングエージェントがクロスプラットフォームコラボレーションを開始

2026年6月1日時点でも、OpenAIヘルプセンターのChatGPTリリースノートは最新の更新として表示されています。5月29日のエントリーには次のように記載されています:Codexは現在、Code...

おすすめツール

もっと見る