1. 초록
ERNIE-4.5-VL-28B-A3B-Thinking은 Baidu의 새로운 오픈 소스 경량 다중 모드 추론 모델로, 총 매개변수 28B와 활성화 약 3B를 갖추고 있으며, 시각과 언어의 의미론적 정렬과 "이미지로 생각하기" 능력에 중점을 두고 세부 사항에 대한 확대/축소 주의를 지원합니다. 이 모델은 Apache-2.0에 따라 라이선스가 부여되었으며 상용으로 이용 가능합니다. 공식적으로는 문서 및 그래프 이해와 같은 벤치마크에서 Gemini-2.5-Pro 및 GPT-5-High보다 우수합니다(결론은 재현 가능한 실험에 따라 결정됨).
2. 핵심 기능
1. 3B는 MoE 아키텍처를 활성화합니다: 추론 비용을 제어할 수 있는 동시에 복잡한 작업의 성능을 향상시킵니다.
2. 이미지 사고: 표 읽기, OCR 및 레이아웃 이해를 향상시키기 위한 다중 스케일 확대/검색 세부 정보.
3. 긴 문서/테이블 분석: 문서 Q&A, 테이블 및 차트 요소 추출 시나리오에 최적화되어 있습니다.
4. 상업적 용도로 개방: Apache-2.0 라이선스로 기업이 다시 구현하고 개발하는 데 편리합니다.
5. 교육 및 정렬 도구 모음: SFT, LoRA, DPO 및 기타 프로세스를 포괄하는 ERNIEKit이 장착되어 있습니다.
3. 설치
1. 모델 획득: Hugging Face 또는 ModelScope에서 무게감과 예제를 가져옵니다.
2. 환경: PaddlePaddle과 ERNIEKit을 사용하는 것을 선호합니다. 추론을 위해 공백/예제를 참조할 수도 있습니다.
3. 미세 조정: LoRA/SFT는 ERNIEKit에서 즉시 사용할 수 있으며 비디오 메모리에 따라 낮은 순위 또는 전체 솔루션을 선택할 수 있습니다.
4. 일반적인 사용 사례
1. 문서 Q&A 및 레이아웃 이해: 송장, 규정 준수 문서 및 매뉴얼의 구조화된 추출.
2. 차트 이해: 좌표/범례/데이터 시리즈를 자동으로 식별하고 요약 및 결론을 생성합니다.
3. 엔터프라이즈 지식 검색: RAG와 결합하여 이미지 및 PDF에 대한 다중 모드 검색 및 답변.
4. 위험 관리 및 품질 검사: 청구서 비교, 그래픽 일관성 및 요소 확인.
5. 생태계 및 경쟁 제품
1. 생태계: GitHub 통합 저장소, AI Studio 온라인 경험, ModelScope 및 HF 릴리스.
2. 경쟁자: Qwen2.5-VL, Llama-3.2-Vision, InternVL2.5 등; ERNIE의 차이점은 3B 활성화 추론과 "이미지 사고"의 추론 효율성입니다. 실제 효과는 장면의 재현에 따라 달라질 수 있습니다.
6. 제한 사항 및 주의 사항
1. 벤치마크 진술을 재현해야 합니다: 폐쇄 소스/다른 평가 설정과의 정렬에서 벗어날 위험이 있습니다.
2. 기억 및 지연: 사고 모드는 추론 단계 수와 지연을 증가시킵니다.
3. 다국어 적용 범위: 중국어/영어 성능은 비교적 안정적이며 다른 언어는 추가로 평가해야 합니다.
4. 규정 준수 및 데이터 보안: 개인 정보 보호 관련 문서에 마스킹 및 액세스 제어를 추가하는 것이 좋습니다.
7. 프로젝트 주소
: https://huggingface.co/baidu/ERNIE-4.5-VL-28B-A3B-Thinking
8. 자주 묻는 질문
: ERNIE-4.5-VL-28B-A3B-Thinking은 상업적으로 라이센스가 있습니까?
A: Apache-2.0에 따라 라이선스가 부여되었으며 상용 애플리케이션에 사용할 수 있습니다.
Q: Thinking Images는 표/차트 이해에 어떻게 도움이 됩니까?
A: 다중 스케일 확대 및 세부 추적을 통해 작은 글씨/가는 선/주석의 인식 및 연관성이 향상됩니다.
Q: 추론에 권장되는 도구 체인은 무엇입니까?
A: 패들패들 + ERNIEKit이 권장됩니다. LoRA/SFT/DPO에서 미세 조정이 가능합니다.
Q: Qwen2.5-VL과 같은 모델과 비교하여 어떻게 선택합니까?
A: 추론 비용과 문서/차트 시나리오에 주의를 기울이면 이 모델을 평가하는 데 우선순위를 둘 수 있습니다. 마지막으로 비즈니스 세트로 검증합니다.
Q: 로컬 민영화 배포가 지원됩니까?
A: 예, 필요에 따라 로컬 당김 추를 미세 조정합니다. 충분한 비디오 메모리와 추론 최적화를 준비해야 합니다.