2025年10月4日、Qwenはコードベースに2つの新しいマルチモーダルモデル、Qwen3-VL-30B-A3B-Instructと-Thinkingのリリースを正式に発表し、同時にFP8量子化バージョンを提供しました。これより前に、より大規模なQwen3-VL-235B-A22Bが9月にリリースされ、FP8バリアントの提供を開始しました。30B-A3BはMixture-of-Expertsアーキテクチャを採用し、1回の推論あたり約30億の活性化パラメータを備えています。Qwen3-VLの機能を維持しながら、スループットと展開効率を大幅に向上させることが目標です。公式チャンネルでは、STEM、VQA、OCR、ビデオ理解、エージェントなどのタスクにおいてGPT-5-MiniやClaude 4 Sonnetと競合でき、いくつかのベンチマークで「しばしばリードしている」と主張していますが、独立した評価はまだ保留中です。
Qwen Chatは現在、オプションのモデルアクセスを提供しており、HuggingFaceとModelScopeは関連する加重バージョンと量子化バージョンをリリースしています。APIページにはモデルシリーズも掲載されています。リリース記事とリポジトリログは公式情報であり、一部のパフォーマンス比較はベンダーによる自己報告であることにご注意ください。サードパーティによるレプリケーション実験がなければ、「同等/上回る」という結論は確定的なものではありません。コストとデプロイメントを重視するチームにとって、FP8バージョンはメモリと帯域幅の使用量を削減し、スループットを向上させることを目的としていますが、具体的なメリットはハードウェアと推論スタックによって異なります。本番環境に移行する前に、対象データセットと推論シナリオでA/Bテストを実施することをお勧めします。
よくある質問
Q: Qwen3-VL-30B-A3B はいつリリースされますか?
A: 公式リポジトリのニュースによると、発売日は2025年10月4日です。関連ブログやモデルカードは当日以降徐々に更新されます。
Q: いわゆる「3B アクティベーション パラメータ」とはどういう意味ですか?
A: これはMoE(Mixture of Experts)アーキテクチャの特徴です。完全なモデルには約300億個のパラメータがありますが、各フォワードパスでアクティブ化されるのは約30億個のみであるため、コスト効率とスループットの向上に役立ちます。
Q: FP8 バージョンの用途は何ですか?
A: FP8量子化は推論効率とリソース使用率を最適化します。原理的には、ビデオメモリと帯域幅の要件を削減し、スループットを向上させることができます。メリットはハードウェアと実装によって異なります。
Q: GPT-5-Mini と Claude 4 Sonnet との比較は信頼できるものですか?
A:これはメーカー自身の声明であり、第三者による再現実験や公開ベンチマークの詳細が不十分です。宣伝と捉えるべきです。独立した評価を待つことをお勧めします。
Q: ウェイトを体験したり入手したりできる場所はどこですか?
A: Qwen Chatはオンライントライアルを提供しており、HuggingFaceとModelScopeにはモデル版と量子化版があります。企業はAlibaba Cloud Model StudioのAPIを通じてこれらのモデルシリーズにアクセスできます。