同益千文は次世代視覚言語モデル「Qwen3-VL」を発表しました。主力製品であるQwen3-VL-235B-A22Bには、 InstructとThinkingという2つのオープンソース版が用意されています。公式資料によると、Instructは複数の視覚ベンチマークでGemini 2.5 Proを上回り、Thinkingはマルチモーダル推論タスクで優れた結果を達成しています。このモデルは、ボタンを解釈し、ツールを起動し、PC/モバイルインターフェース上で現実世界のタスクを実行できる「ビジュアルエージェント」をサポートしており、 OS Worldなどのベンチマークで非常に優れたパフォーマンスを発揮しています。
今回のアップグレードでは、長いコンテキストと複雑なシナリオのカバレッジを重視しています。256KBを超えるコンテキストをサポートし、 1MBまで拡張可能で、約2時間の動画と複数ページのPDFを処理できます。また、 32言語のOCR (ぼやけた文字、歪んだ文字、希少文字に対する堅牢性が強化)を提供し、2D/3D空間理解、オクルージョン、視点推論においてより堅牢なパフォーマンスを提供します。オープンエコシステムに関しては、オンライン会話(Qwen Chat)、API(Alibaba Cloud Model Studio)、Hugging Face/ModelScopeのウェイトとデモが同時にリリースされました。
よくある質問
Q: 今回オープンソース化されるバリアントはどれですか?
A: Qwen3-VL-235B-A22B指導と思考では、キャプション/デモンストレーション リソースと推論の例も提供されます。
Q: ビジュアルエージェントは何ができますか?
A: 画面要素と階層を読み取り、ボタンとフォームを理解し、ツール呼び出しを使用して実際のデバイス/アプリケーションでタスクを完了します。
Q: 長いコンテキストはどのくらいの大きさまでサポートされますか?
A: 256K+とマークされており、 1Mレベルまで拡張できるため、長いビデオや長いドキュメントのシナリオに適しています。
Q: 多言語機能の対象範囲はどのくらいですか?
A: 32 言語の OCR をサポートしており、テキスト機能は、言語間の画面読み取りと理解のトップクラスの一般的なモデルに準拠しています。
Q: 体験やアクセス方法は?
A: Qwen Chatの場合は、 qwen3-vl-plus を選択してください。Alibaba Cloud Model StudioがAPIを提供しています。ウェイトとデモはHugging Face/ModelScopeでご利用いただけます。