一、摘要
ERNIE-4.5-VL-28B-A3B-Thinking 是百度新开源的轻量级多模态推理模型,总参 28B、激活约 3B,主打视觉与语言的语义对齐与“Thinking with Images(图像思考)”能力,支持放大/缩小关注细节。模型采用 Apache-2.0 许可,可商用。官方宣称在文档与图表理解等基准优于 Gemini-2.5-Pro 与 GPT-5-High(结论需以可复现实验为准)。
二、核心特性
1、3B 激活 MoE 架构:在保持推理成本可控的同时提升复杂任务表现。
2、图像思考:多尺度放大/浏览细节以改进读表、OCR、版面理解。
3、长文档/表格解析:面向文档问答、表格与图表要素抽取场景优化。
4、开放商用:Apache-2.0 许可,便于企业落地与二次开发。
5、训练与对齐工具链:配套 ERNIEKit,覆盖 SFT、LoRA、DPO 等流程。
三、安装
1、模型获取:从 Hugging Face 或 ModelScope 拉取权重与示例。
2、环境:优先使用 PaddlePaddle 与 ERNIEKit;亦可参考空间/示例进行推理。
3、微调:LoRA/SFT 在 ERNIEKit 中开箱可用,按显存选择低秩或全量方案。
四、典型用例
1、文档问答与版面理解:发票、合规文件、说明书结构化抽取。
2、图表理解:自动识别坐标/图例/数据系列,生成摘要与结论。
3、企业知识检索:结合 RAG,对图片与PDF进行多模态检索问答。
4、风控与质检:票据比对、图文一致性与要素核验。
五、生态与竞品
1、生态:GitHub 统一仓库、AI Studio 在线体验、ModelScope 与 HF 发布。
2、竞品:Qwen2.5-VL、Llama-3.2-Vision、InternVL2.5 等;ERNIE 的差异点在 3B 激活的推理效率与“图像思考”。实际效果以场景复现为准。
六、局限与注意事项
1、基准声明需复现:与闭源/不同评测设定对齐存在偏差风险。
2、显存与时延:思考模式会增加推理步数与延迟。
3、多语种覆盖:中文/英文表现相对稳健,其他语种需额外评估。
4、合规与数据安全:涉隐私文档建议加脱敏与访问控制。
七、项目地址
https://huggingface.co/baidu/ERNIE-4.5-VL-28B-A3B-Thinking
八、常见问题
Q: ERNIE-4.5-VL-28B-A3B-Thinking 的许可是否可商用?
A: 采用 Apache-2.0 许可,可用于商业应用。
Q: “图像思考”对表格/图表理解有什么帮助?
A: 通过多尺度放大与细节跟踪,提升小字/细线/标注的识别与关联。
Q: 推理推荐用什么工具链?
A: 建议 PaddlePaddle + ERNIEKit;微调可用 LoRA/SFT/DPO。
Q: 与 Qwen2.5-VL 等模型对比如何选择?
A: 若重视推理成本与文档/图表场景,可优先评估本模型;最终以业务集验证。
Q: 是否支持本地私有化部署?
A: 支持,本地拉取权重并按需微调;需准备足够显存与推理优化。