Qwen 3.5-Omniリリース：長いオーディオとビデオの理解からリアルタイムの音声とビデオインタラクションへ

AI情報 • Admin • 2026/3/31 • 123 回閲覧

Qwen 3.5-OmniがQwenから公式にリリースされました。Qwen ChatのエクスペリエンスポータルはVoiceChatとVideoChatに向けられている。リスニングとチューニングのツールをインタラクションのラウンドに押し込みますが、モデルとオープンエリアを確認する必要があります。

まず、このアップグレードだけでなく、より多くを見る

公式今回は機能をオフラインとリアルタイムの2つのラインに分割します。オフライン側では、タイムスタンプ、ショット切り替え、スピーカーマッピングを含むビデオスクリプトを生成するスクリプトレベルのキャプションがあります。リアルタイム側では、きめ細かい音声制御、Web検索、複雑な関数呼び出しを1つのインタラクションセットに統合します。

外部資料では、最大10時間のオーディオ、400 秒の720pビデオ、113の音声認識言語または方言、36の音声生成言語または方言など、いくつかのハード指標を同時に提示し、ファミリーをPlus、Flash、Lightの3つのファイルに分割します。

まずQwen Chatに行って右下にVoice ChatまたはVideoChatがあるかどうかを確認し、開発ドキュメントに行ってOffline APIとRealtime APIポータルが表示されているかどうかを確認します。Webページが直接リアルタイムの音声やビデオをオンにでき、コンソールが対応するモデルを呼び出すことができれば、これらの機能はすでに利用可能になっていることを示します。

第四に、価値は大きいですが、境界も見る必要があります

この機能の最も実用的な意味は、単一のQ & Aではなく、音声アシスタント、ビデオ理解、会議処理、フロントエンドプロトタイプが継続的なコラボレーションに入り始めます。公式プロモーションはQwen 3.5-Omniファミリーを使用していますが、公開APIドキュメントは現在Qwen-OmniとQwen 3-Omni-Flash、Realtimeシリーズ、音声クローンはまだ段階的にエンジニアリングされていることを示しています。