Qwenは、ビジュアル言語モデルQwen3-VLがllama.cppでネイティブサポートされ、2Bから235Bまでの様々な仕様をカバーするGGUFの重みがフルレンジでリリースされたことを正式に発表しました。CPU、CUDA、Metal、Vulkanなどのバックエンドで直接実行できます。ダウンロードリンクはHugging FaceとModaコミュニティで公開されており、ユーザーはデバイスと精度に応じて量子化バージョンを選択できます。
llama.cpp のマージリクエストがメインリポジトリに統合され、Qwen3-VL(Dense および MoE バリアントを含む)のロードと推論のサポートが追加されました。また、Qwen リポジトリとドキュメントも更新され、ローカル実行と GGUF の使用ガイドラインが追加されました。全体として、このアップデートにより、「公式発表 + 重みのリリース + 推論フレームワークのサポート」という 3 点セットが実現され、エッジデバイスや個人用デバイスにおけるマルチモーダル大規模モデルの導入ハードルが下がります。
よくある質問
Q: このアップデートには具体的に何が含まれていますか?
A: llama.cpp トランクは Qwen3-VL サポートに統合されました。公式 Web サイトでも 2B から 235B までの GGUF 重みがリリースされ、簡単にダウンロードして定量化を選択できるコレクション ページが提供されています。
Q: どのハードウェアで実行できますか?
A: 公式発表によると、CPU、NVIDIA CUDA、Apple Metal、Vulkan などのバックエンドをサポートしており、一般的なデスクトップおよびラップトップ環境と互換性があります。
Q: 重量はどこで入手できますか?
A: Hugging Face と ModelScope はどちらも、Qwen3-VL コレクションと対応する GGUF リポジトリを提供しています。
Q: マージステータスはどのように確認されますか?
A: llama.cpp の PR は「マージ済み」としてマークされています。変更履歴とコミット履歴はメインリポジトリでご確認いただけます。
Q: ランニングガイドは含まれていますか?
A: Qwen のドキュメントとリポジトリには、モデルの取得と起動の例を含む、llama.cpp をローカルで実行し、GGUF を使用する手順が記載されています。