戻るAI情報
PaddleOCR-VL (0.9B) リリース: NaViT×ERNIE 軽量マルチモーダルモデル、文書解析が複数のベンチマークでトップ

PaddleOCR-VL (0.9B) リリース: NaViT×ERNIE 軽量マルチモーダルモデル、文書解析が複数のベンチマークでトップ

AI情報 Admin 161 回閲覧

2025年10月16日、PaddleOCRはマルチモーダル文書解析モデルPaddleOCR-VLのリリースを発表しました。これはバージョン3.3.0のコア機能としてリリースされました。約0.9Bサイズのこのモデルは、NaViTスタイルの動的解像度ビジュアルエンコーダーとERNIE-4.5-0.3B言語モデルを組み合わせることで、テキスト、表、数式、グラフ、手書きなどの要素の統合認識と構造化出力を実現します。OmniDocBenchなどの公開データセットおよび自社構築データセットによる公式評価では、PaddleOCR-VLはページレベルの解析と特徴レベルの認識の両方において、最先端のパフォーマンスを達成または上回ることが示されています。

PaddleOCR-VLは、中国語、英語、日本語、ラテン語、アラビア語、キリル文字、デーバナーガリー文字を含む109の言語と文字体系をカバーしていると主張しています。実世界の生産に合わせて推論効率を最適化し、PP-StructureV3やPP-OCRv5などのPaddleOCRコンポーネントと併用できます。モデルとドキュメントは、GitHub、HuggingFace、および公式ドキュメントで入手できます。詳細なベンチマーク、可視化例、導入方法については、公式ウェブサイトをご覧ください。データセットのバージョンや評価範囲など、詳細についてはリポジトリの更新情報にご注目ください。

よくある質問

Q: PaddleOCR-VLとは何ですか?

A: エンドツーエンドのドキュメント解析用の約 9 億のパラメータを備えたビジュアル言語モデルで、テキスト、表、数式、グラフ、手書きを同時に処理し、構造化された結果を出力できます。

Q: なぜ「超小型」というのですか?

A: マルチモーダルVLMにおいて、0.9Bは比較的サイズが小さく、推論効率も優れています。NaViTの動的解像度とERNIE-4.5-0.3Bを組み合わせることで、精度を維持しながら計算能力の要件を削減できます。

Q: 本当に SOTA に到達したのでしょうか?

A: OmniDocBench v1.5/v1.0などのベンチマークや、当社独自のベンチマークにおいて、全体的なパフォーマンス、読み上げ順序、表、数式など、複数の指標において優れた結果を示しました。結論は、公開レポートおよびモデルカードに記載されているグラフと説明に基づいています。

Q: どのような言語とアプリケーションシナリオがサポートされていますか?

A: 109言語をカバーし、多言語組版、歴史的文書、複雑なレイアウトといったシナリオに適しています。PP-StructureV3のレイアウト/表構造化機能と連携することで、実際のビジネス分析に活用できます。

Q: どこで入手し、どのように試すことができますか?

A: GitHub ではバージョンノートとコマンドライン/Python API が提供されており、HuggingFace ではモデルカードとオンラインデモのリンクが提供されており、ドキュメント サイトではデプロイメントとアクセラレーション (vLLM/sglang サーバーなど) のガイドが提供されています。

PaddleOCR-VL リリース PaddleOCR-VL マルチモーダルドキュメント解析 PaddleOCR-VL0_9B モデル PaddleOCR-VLNaViT 動的解像度 パドルOCR-VLERNIE-4_5-0_3B PaddleOCR-VL ページレベル解析 SOTA PaddleOCR-VL 特徴レベル認識 SOTA PaddleOCR-VLOmniDocBenchの結果 PaddleOCR-VL109言語 PaddleOCR-VL 複数スクリプトのサポート PaddleOCR-VL構造化出力 PaddleOCR-VL テキスト、表、数式、グラフ PaddleOCR-VL手書き認識 PaddleOCR-VL 複雑なレイアウト解析 PaddleOCR-VL 読み取り順序抽出 PaddleOCR-VL テーブル構造化 PaddleOCR-VL 式解析 PaddleOCR-VL グラフ理解 PaddleOCR-VLPDF分析 PaddleOCR-VL バッチ処理 PaddleOCR-VLの生産レベルの推論効率 PaddleOCR-VL エンドツーエンド解析 PaddleOCR-VLとPP-StructureV3の連携 PaddleOCR-VLとPP-OCRv5の連携 PaddleOCR-VLはGitHubでオープンソース化されています PaddleOCR-VLHuggingFaceモデルカード PaddleOCR-VL オンラインデモ PaddleOCR-VL3_3_0 コア機能 PaddleOCR-VL 導入ガイド PaddleOCR-VLvLLM サーバー PaddleOCR-VLsglang対応 PaddleOCR-VL 軽量VLM PaddleOCR-VL推論加速 PaddleOCR-VLレイアウト分析 PaddleOCR-VL ドキュメント理解 PaddleOCR-VL エンタープライズアプリケーション PaddleOCR-VLAPI の例 PaddleOCR-VLPython の使い方 PaddleOCR-VL 視覚化の例 PaddleOCR-VLモデルのダウンロード PaddleOCR-VLベンチマーク PaddleOCR-VL 自作データセット PaddleOCR-VLデータセットバージョン PaddleOCR-VLの評価範囲 PaddleOCR-VL 多言語OCR PaddleOCR-VL 歴史的文書解析 PaddleOCR-VL 混合分類シナリオ PaddleOCRとVLSOTAの比較 PaddleOCR-VLの精度と効率 PaddleOCR-VL の製品展開

関連記事

Qwen3Guardは完全にオープンソースになりました: セキュリティ調整と推論保護のための二重フレームワーク

Qwen3Guardは完全にオープンソースになりました: セキュリティ調整と推論保護のための二重フレームワーク

I. 要約 Qwen3Guardは、Alibaba Cloud Qwenチームが立ち上げたオープンソースのセキュリティ保護システムで、推論と出力の両方において大規模言語モデルのセキュリティを向上させる...

Nano BananaがGoogle検索で利用可能に:レンズとAIモードでワンクリックで画像編集と生成が可能

Nano BananaがGoogle検索で利用可能に:レンズとAIモードでワンクリックで画像編集と生成が可能

Googleは、最新の画像編集モデルであるNano Bananaを検索シナリオに統合し、ユーザーがGoogleアプリ内でLensとAIモードで画像を作成または編集できるようにすると発表しました。公式発...

MWC上海がロボットのペナルティシュートアウトを開催:具現化された知能が公衆試験会場に移動する

MWC上海がロボットのペナルティシュートアウトを開催:具現化された知能が公衆試験会場に移動する

2026年6月1日、IT HomeはGSMAが本日、2026年6月24日から25日まで上海MWCでテーマイベントとして「ヒューマノイドロボットペナルティシュートアウト」を開催することを正式に発表したと...

CodexがWindows制御をサポートする:AIプログラミングエージェントがクロスプラットフォームコラボレーションを開始

CodexがWindows制御をサポートする:AIプログラミングエージェントがクロスプラットフォームコラボレーションを開始

2026年6月1日時点でも、OpenAIヘルプセンターのChatGPTリリースノートは最新の更新として表示されています。5月29日のエントリーには次のように記載されています:Codexは現在、Code...

おすすめツール

もっと見る