戻るAI情報
Qwen3-VL リリース: フラッグシップモデル 235B オープンソース、インストラクション/思考バージョンも利用可能

Qwen3-VL リリース: フラッグシップモデル 235B オープンソース、インストラクション/思考バージョンも利用可能

AI情報 Admin 116 回閲覧

同益千文は次世代視覚言語モデル「Qwen3-VL」を発表しました。主力製品であるQwen3-VL-235B-A22Bには、 InstructThinkingという2つのオープンソース版が用意されています。公式資料によると、Instructは複数の視覚ベンチマークでGemini 2.5 Proを上回り、Thinkingはマルチモーダル推論タスクで優れた結果を達成しています。このモデルは、ボタンを解釈し、ツールを起動し、PC/モバイルインターフェース上で現実世界のタスクを実行できる「ビジュアルエージェント」をサポートしており、 OS Worldなどのベンチマークで非常に優れたパフォーマンスを発揮しています。

今回のアップグレードでは、長いコンテキストと複雑なシナリオのカバレッジを重視しています。256KBを超えるコンテキストをサポートし、 1MBまで拡張可能で、約2時間の動画と複数ページのPDFを処理できます。また、 32言語のOCR (ぼやけた文字、歪んだ文字、希少文字に対する堅牢性が強化)を提供し、2D/3D空間理解、オクルージョン、視点推論においてより堅牢なパフォーマンスを提供します。オープンエコシステムに関しては、オンライン会話(Qwen Chat)、API(Alibaba Cloud Model Studio)、Hugging Face/ModelScopeのウェイトとデモが同時にリリースされました。

よくある質問

Q: 今回オープンソース化されるバリアントはどれですか?

A: Qwen3-VL-235B-A22B指導思考では、キャプション/デモンストレーション リソースと推論の例も提供されます。

Q: ビジュアルエージェントは何ができますか?

A: 画面要素と階層を読み取り、ボタンとフォームを理解し、ツール呼び出しを使用して実際のデバイス/アプリケーションでタスクを完了します。

Q: 長いコンテキストはどのくらいの大きさまでサポートされますか?

A: 256K+とマークされており、 1Mレベルまで拡張できるため、長いビデオや長いドキュメントのシナリオに適しています。

Q: 多言語機能の対象範囲はどのくらいですか?

A: 32 言語の OCR をサポートしており、テキスト機能は、言語間の画面読み取りと理解のトップクラスの一般的なモデルに準拠しています。

Q: 体験やアクセス方法は?

A: Qwen Chatの場合は、 qwen3-vl-plus を選択してください。Alibaba Cloud Model StudioがAPIを提供しています。ウェイトとデモはHugging Face/ModelScopeでご利用いただけます。

Qwen3-VLオープンソースリリース Qwen3-VL-235B-A22B Qwen3-VLInstructバージョン Qwen3-VLThinkingエディション Qwen3-VL ビジュアルエージェント Qwen3-VLビジュアルエージェント Qwen3-VL ロングコンテキスト 256K Qwen3-VLコンテキスト拡張1M Qwen3-VL 2時間ビデオ理解 Qwen3-VL 複数ページ PDF 解析 Qwen3-VLマルチモーダル推論 Qwen3-VLがGemini2\_5Proを上回る Qwen3-VLOSWorld評価リード Qwen3-VL 32言語OCR Qwen3-VL あいまいテキスト認識 Qwen3-VL 傾斜テキストの堅牢性 Qwen3-VL レア文字 OCR Qwen3-VL2D_3D空間理解 Qwen3-VL オクルージョン推論 Qwen3-VL 視点推論 Qwen3-VLの画面はボタンを読み取ります Qwen3-VL フォーム自動化 Qwen3-VLツール呼び出し Qwen3-VL実機操作 Qwen3-VLPC 携帯電話サポート Qwen3-VLおよびQwenChatへのアクセス Qwen3-VLモデルスタジオAPI Qwen3-VLHuggingFace ウェイト Qwen3-VLモデルスコープミラー Qwen3-VLCaptionリソース Qwen3-VL デモ Qwen3-VL 多言語スクリーンリーダー Qwen3-VL複合シーンカバレッジ Qwen3-VL 長文文書処理 Qwen3-VL ビデオQ&A Qwen3-VLはマルチモーダル評価をリードする Qwen3-VL クロスランゲージ理解 Qwen3-VL オープンソースウェイトのダウンロード Qwen3-VL推論の例 Qwen3-VLAPI アクセスガイド Qwen3-VLの生態学的適合性 Qwen3-VLとツールチェーンの連携 Qwen3-VL 開発者向け Qwen3-VL エンタープライズアプリケーションシナリオ Qwen3-VLベンチマークユニバーサルモデル Qwen3-VL 画面要素階層 Qwen3-VLボタンフォームの理解 Qwen3-VL 長時間ビデオのキーポイント抽出 Qwen3-VL 複数ページ PDF 概要 Qwen3-VLレビューのハイライト

関連記事

おすすめツール

もっと見る