Alibaba Cloud Tongyi Qianwenチームは、Qwen3-VLモデルシリーズの2つの新しいオープンソース版(Qwen3-VL-4BとQwen3-VL-8B)をGitHubで公開しました。公式発表によると、これら2つのモデルはQwen3アーキテクチャを継承し、画像とテキストを含むマルチモーダルタスクに最適化されています。画像、テキスト、表のコンテンツを理解し、生成的な回答と複雑な視覚的推論をサポートします。
技術資料によると、Qwen3-VL-4Bは軽量アプリケーション向けに設計されており、パフォーマンスと導入コストのバランスが取れています。Qwen3-VL-8Bは、より高い精度と強化された視覚理解機能を備えており、科学研究やエンタープライズレベルのタスクに適しています。関係者によると、コミュニティユーザーはモデルの性能を自由にテストし、フィードバックを提供することができ、成功事例と失敗事例の両方を公開共有することが推奨されています。このリリースは、Tongyiのオープンソース・マルチモーダル機能の大幅な拡張と見られています。
よくある質問
Q: Qwen3-VL はどのようなモデルですか?
A: 画像とテキストの両方の入力を処理できるTongyi Qianwenのマルチモーダルモデルです。
Q: このリリースにはどのような新しいバージョンが含まれていますか?
A: 2 つの新しいパラメータスケール オープン ソース モデル、Qwen3-VL-4B と Qwen3-VL-8B が追加されました。
Q: これらのモデルはどこで入手できますか?
A: モデル コードと重みファイルは、Qwen 公式 GitHub リポジトリに公開されています。
Q: 以前のバージョンと比べてどのような点が改善しましたか?
A: 主に視覚的な理解、OCR の精度、クロスモーダル推論機能を向上させ、推論速度を最適化します。
Q: 商業的に、またはローカルに展開できますか?
A: Qwen の公式オープンソースライセンス契約によれば、規約を遵守することを前提に、自由に研究し、展開することができます。