1. 要約
ERNIE-4.5-VL-28B-A3B-Thinking は、Baidu の新しいオープンソースの軽量マルチモーダル推論モデルで、総パラメータ 28B とアクティベーション約 3B を備え、視覚と言語の意味的調整と「画像で考える」能力に焦点を当て、細部へのズーム/絞り込みをサポートします。 このモデルは Apache-2.0 でライセンスされており、市販されています。 公式には、ドキュメントやグラフの理解などのベンチマークで Gemini-2.5-Pro や GPT-5-High よりも優れています (結論は再現可能な実験の対象となります)。
2. コア機能
1. 3B は MoE アーキテクチャをアクティブにし、推論コストを制御可能に保ちながら、複雑なタスクのパフォーマンスを向上させます。
2.画像思考:マルチスケールのズーム/ブラウジングの詳細により、表の読み取り、OCR、レイアウトの理解を向上させます。
3. 長いドキュメント/テーブル分析: ドキュメント Q&A、テーブル、チャート要素の抽出シナリオに最適化されています。
4. 商用利用に公開: Apache-2.0 ライセンスは、企業が再度実装および開発するのに便利です。
5. トレーニングとアライメントのツールチェーン: ERNIEKit を搭載し、SFT、LoRA、DPO、その他のプロセスをカバーします。
3. インストール1
. モデルの取得: Hugging Face または ModelScope から重みと例をプルします。
2. 環境: PaddlePaddle と ERNIEKit の使用を好みます。 推論のためにスペース/例を参照することもできます。
3. 微調整: LoRA/SFT は ERNIEKit ですぐに利用でき、ビデオ メモリに応じて低ランクまたはフル ソリューションを選択できます。
4. 代表的な使用例1
. 文書のQ&Aとレイアウトの理解:請求書、コンプライアンス文書、マニュアルの構造化された抽出。
2. チャートの理解: 座標/凡例/データ系列を自動的に識別し、要約と結論を生成します。
3. エンタープライズ知識検索: RAG と組み合わせて、画像や PDF に対するマルチモーダル検索と回答を行います。
4. リスク管理と品質検査: 請求書の比較、グラフィックの一貫性、要素の検証。
5. エコシステムと競合製品1
. エコシステム: GitHub 統合リポジトリ、AI Studio オンライン エクスペリエンス、ModelScope および HF リリース。
2. 競合他社: Qwen2.5-VL、Llama-3.2-Vision、InternVL2.5 など。 ERNIEの違いは、3Bで活性化された推論と「イメージ思考」の推論効率です。 実際の効果はシーンの再現に左右されます。
6. 制限事項と注意事項1
. ベンチマークステートメントを再現する必要があります: クローズドソース/異なる評価設定との整合性から逸脱するリスクがあります。
2. 記憶と遅延: 思考モードは、推論ステップの数と遅延を増加させます。
3. 多言語対応: 中国語/英語のパフォーマンスは比較的安定しており、他の言語も追加で評価する必要があります。
4. コンプライアンスとデータ セキュリティ: プライバシー関連のドキュメントにマスキングとアクセス制御を追加することをお勧めします。
7. プロジェクトアドレス
https://huggingface.co/baidu/ERNIE-4.5-VL-28B-A3B-Thinking8
. よくある質問
Q: ERNIE-4.5-VL-28B-A3B-Thinkingは商用ライセンスを取得していますか?
A: Apache-2.0の下でライセンスされており、商用アプリケーションに使用できます。
Q: Thinking Imagesは表やチャートの理解にどのように役立ちますか?
A: マルチスケール拡大と詳細追跡により、小さな活字/細線/注釈の認識と関連付けが向上します。
Q: 推論にはどのようなツールチェーンが推奨されますか?
A: パドルパドル + ERNIEKit をお勧めします。 LoRA/SFT/DPO で微調整が可能です。
Q: Qwen2.5-VL などのモデルと比較してどのように選択すればよいですか?
A: 推論コストとドキュメント/チャートのシナリオに注意を払う場合は、このモデルの評価を優先できます。 最後に、ビジネスセットで検証します。
Q: ローカルの民営化展開でサポートされていますか?
A: はい、必要に応じて局所的なプルウェイトと微調整を行います。 十分なビデオメモリと推論の最適化を準備する必要があります。