Alibaba Cloudは、Model StudioでQwen3-VL-Flashの提供開始を発表しました。このシリーズは、画像と動画の理解のための「思考モード」と「非思考モード」の両方の推論パスを提供します。公式ドキュメントによると、Qwen3-VL-Flashシリーズは、非思考モードで約260,096トークン、思考モードで約258,048トークン(インターバル課金)のコンテキスト制限があり、画像1枚あたり最大16,384トークンの視覚入力をサポートします。このシリーズは、応答速度の向上と呼び出しコストの低減を重視しており、長時間の動画やドキュメントなどの高負荷シナリオに適しています。
Model Studioのドキュメントには、機能面では、ビデオ理解、イベント位置とタイムスタンプの抽出、2D/3Dオブジェクト検出、空間関係とオクルージョン検出などが記載されています。また、ドキュメント解析、数式/表認識、多言語OCRにも対応しており、「思考モード」(enable_thinking)を有効/無効にするインターフェースパラメータも提供されています。公式情報筋によると、この新モデルはオープンソースのQwen3-VL-30B-A3BおよびQwen2.5-72Bと比較して、速度、総合的な機能、コストの面で優位性があるとされています。具体的な比較の詳細やサードパーティによる再テスト結果はまだ公表されていません。
よくある質問
Q: Qwen3-VL-Flash のコンテキスト制限は何ですか?
A: 文書には、非思考モードで約 260,096 トークン、思考モードで約 258,048 トークンがリストされており、0~32K、32K~128K、128K~256K のセグメントで価格設定されています。
Q:「思考モード/非思考モード」を切り替えるにはどうすればいいですか?
A: これは API 呼び出しの enable_thinking パラメータによって制御されます。思考モデルは答えを出す前に暗黙的な推論を実行しますが、非思考モデルは答えを直接生成します。
Q: どのような典型的なシナリオがサポートされていますか?
A: 長いビデオや長いドキュメントの質問回答/要約、2D/3D オブジェクトの検出と空間ローカリゼーション、ドキュメント解析 (表や数式を含む)、多言語 OCR、ビジョンベースのエージェント タスク制御。
Q: オープンソースの Qwen3-VL-30B-A3B および Qwen2.5-72B との関係は何ですか?
A: 公式には速度、性能、コストの面で優れていると謳っていますが、これはメーカーの見解です。その後の公開ベンチマークや第三者による評価にも注目することをお勧めします。
Q: どこで価格にアクセスして確認できますか?
A: Alibaba Cloud Model Studio の Visual Understanding ドキュメントとモデル/課金ページで、qwen3-vl-flash のコンテキスト、セグメント化された価格設定、サンプル コードを確認できます。また、コンソールのドキュメント ページから API の説明を入手できます。