Z.ai オープンソースのビジュアル言語モデルGLM-4.5Vを正式に発表しました。 このモデルは、この規模のオープンソースモデルのリーダーであり、40+の公開ベンチマークをカバーし、マルチモーダルな視覚的推論機能に焦点を当てています。 GLM-4.5V は GLM-4.5-Air ベースに基づいており、106B パラメータの MoE (Expert Hybrid) アーキテクチャを採用し、GLM-4.1V-Thinking の「思考」技術ルートを継続し、オンライン エクスペリエンスと API アクセスを提供します。
1. モデルのポジショニングとテクニカルルート
一般的な- 視覚的推論とマルチモーダルエージェントのためのオープンソースVLM。
- GLM-4.5-Airに基づくと、MoEパラメータの合計は約106B、アクティブパラメータは約12Bです。
- 「Think/Fast Mode」切り替えの紹介: ディープ推論と応答遅延の柔軟なトレードオフ。
- GLM-4.1V-Thinkingのスケーラブルな強化学習と推論のパラダイムを引き続き使用します。
2. 機能の範囲と一般的なタスク
- 画像理解とマルチ画像推論: シーン理解、グラフ間配置、空間関係推論。
- ビデオ理解:長いビデオのセグメンテーション、イベント認識、時間インデックス付き説明。
- ドキュメントとテーブル:長いドキュメントの読み取り、OCR、テーブル抽出、チャート解析。
- GUI/エージェントのシナリオ:画面の読み取り、要素の配置、クリック/スワイプなどの運用計画
- グラウンディング:正確なターゲティングとレイアウトの理解。
3. ベンチマークのパフォーマンスとスケールのポジショニング
- 関係者らは、41〜42の公開ベンチマークをカバーし、同じ規模のオープンソースモデルで主導的な地位を達成したと述べています。
- 主要な指標には、画像Q&A、ビデオ理解、OCR / DocVQA、チャートQ&A、空間およびフロントエンドの理解などが含まれます。
- スコアを追いかけるだけでなく、「再現性のある検証+エンジニアリングのユーザビリティ」のバランスを取ることが目標です。
4. オープンフォームと使用法
- オープンソースの重みとモデルカード: 推論と展開を容易にするために、標準および FP8 バリアントを提供します。
- コードと評価: Transformer がすぐに開始できるように、リポジトリとサンプルを開きます。
- オンライン体験とAPI: Web会話と公式プラットフォームAPIを提供し、マルチモーダル入力をサポートします。
- ライセンスとエコロジー: オープンソース ライセンスが採用されています。 評価リポジトリ、デモスペース、コミュニティディスカッション掲示板をサポートします。
5. 実装の提案 (エンジニアリングの観点)
- リソース計画: MoE 大規模モデルの展開にはオンライン API/FP8 パイロットを使用してから、ローカル マルチカードを評価することをお勧めします。
- 評価と校正:長い文書の堅牢性と分析精度に焦点を当てた、独自のサンプルを使用したA/B。
- セキュリティとコンプライアンス: OCR/ドキュメント シナリオの脱感作、レッドライン、データ トレース ポリシーを追加します。
- 観察と再生: 入力、出力、思考軌跡 (ある場合) を記録して、簡単に遡及的で継続的な最適化を行います。
- 組み合わせパラダイム: 検索/ツール呼び出しと組み合わせて、エンドツーエンドのマルチモーダル エージェント ワークフローを構築します。
Q&A よくある質問Q
: GLM-4.5V はオープンソースですか? ライセンスとは何ですか?
A: オープンソースモデルであり、モデルカードにはMITによってライセンスされているとマークされています。
Q: どのようなモダリティがサポートされていますか?
A: 画像、ビデオ、テキスト、ファイルの入力をサポートします。 出力はテキストであり、境界ボックス座標などの構造化された情報を添付することができます。
Q: すぐに体験するにはどうすればいいですか?
A: オンライン会話には公式 Web サイトを直接使用できます。 公式APIやHugging Face Demoを通じても体験できます。
Q: ローカル推論を始めるには?
A: トランスフォーマーの例と推論スクリプトが公式に提供されています。 メモリ負荷を軽減するために、FP8 バリアントも利用できます。 本番環境では、最初に API を使用してから、セルフホスティングのコストを評価できます。
Q: GLM-4.1V-Thinkingとの関係は?
A: その「思考」トレーニングと推論のアイデアを継承し、より大きな MoE アーキテクチャで効果的に拡張します。
ハギングフェイス(GLM-4.5Vモデルカード)
https://huggingface.co/zai-org/GLM-4.5V
GitHub (GLM-4.5 シリーズとドックの説明)
< href="https://github.com/zai-org/GLM-4.5" rel="noopener noreferrer" target="_blank">https://github.com/zai-org/GLM-4.5
オンラインエクスペリエンス(チャット)<
a href="https://chat.z.ai" rel="noopener noreferrer" target="_blank">https://chat.z.ai