오픈 소스 상용 다중 모드 근거 모델: ERNIE-4.5-VL-28B-A3B-사고 분석

AI는 오픈 소스입니다. • Admin • 2025. 11. 12. • 120 회 조회

1. 초록

ERNIE-4.5-VL-28B-A3B-Thinking은 Baidu의 새로운 오픈 소스 경량 다중 모드 추론 모델로, 총 매개변수 28B와 활성화 약 3B를 갖추고 있으며, 시각과 언어의 의미론적 정렬과 "이미지로 생각하기" 능력에 중점을 두고 세부 사항에 대한 확대/축소 주의를 지원합니다. 이 모델은 Apache-2.0에 따라 라이선스가 부여되었으며 상용으로 이용 가능합니다. 공식적으로는 문서 및 그래프 이해와 같은 벤치마크에서 Gemini-2.5-Pro 및 GPT-5-High보다 우수합니다(결론은 재현 가능한 실험에 따라 결정됨).

2. 핵심 기능

1. 3B는 MoE 아키텍처를 활성화합니다: 추론 비용을 제어할 수 있는 동시에 복잡한 작업의 성능을 향상시킵니다.

2. 이미지 사고: 표 읽기, OCR 및 레이아웃 이해를 향상시키기 위한 다중 스케일 확대/검색 세부 정보.

3. 긴 문서/테이블 분석: 문서 Q&A, 테이블 및 차트 요소 추출 시나리오에 최적화되어 있습니다.

4. 상업적 용도로 개방: Apache-2.0 라이선스로 기업이 다시 구현하고 개발하는 데 편리합니다.

5. 교육 및 정렬 도구 모음: SFT, LoRA, DPO 및 기타 프로세스를 포괄하는 ERNIEKit이 장착되어 있습니다.

3. 설치

1. 모델 획득: Hugging Face 또는 ModelScope에서 무게감과 예제를 가져옵니다.

2. 환경: PaddlePaddle과 ERNIEKit을 사용하는 것을 선호합니다. 추론을 위해 공백/예제를 참조할 수도 있습니다.

3. 미세 조정: LoRA/SFT는 ERNIEKit에서 즉시 사용할 수 있으며 비디오 메모리에 따라 낮은 순위 또는 전체 솔루션을 선택할 수 있습니다.

4. 일반적인 사용 사례

1. 문서 Q&A 및 레이아웃 이해: 송장, 규정 준수 문서 및 매뉴얼의 구조화된 추출.

2. 차트 이해: 좌표/범례/데이터 시리즈를 자동으로 식별하고 요약 및 결론을 생성합니다.

3. 엔터프라이즈 지식 검색: RAG와 결합하여 이미지 및 PDF에 대한 다중 모드 검색 및 답변.

4. 위험 관리 및 품질 검사: 청구서 비교, 그래픽 일관성 및 요소 확인.

5. 생태계 및 경쟁 제품

1. 생태계: GitHub 통합 저장소, AI Studio 온라인 경험, ModelScope 및 HF 릴리스.

2. 경쟁자: Qwen2.5-VL, Llama-3.2-Vision, InternVL2.5 등; ERNIE의 차이점은 3B 활성화 추론과 "이미지 사고"의 추론 효율성입니다. 실제 효과는 장면의 재현에 따라 달라질 수 있습니다.

6. 제한 사항 및 주의 사항

1. 벤치마크 진술을 재현해야 합니다: 폐쇄 소스/다른 평가 설정과의 정렬에서 벗어날 위험이 있습니다.

2. 기억 및 지연: 사고 모드는 추론 단계 수와 지연을 증가시킵니다.

3. 다국어 적용 범위: 중국어/영어 성능은 비교적 안정적이며 다른 언어는 추가로 평가해야 합니다.

4. 규정 준수 및 데이터 보안: 개인 정보 보호 관련 문서에 마스킹 및 액세스 제어를 추가하는 것이 좋습니다.

7. 프로젝트 주소

: https://huggingface.co/baidu/ERNIE-4.5-VL-28B-A3B-Thinking

8. 자주 묻는 질문

: ERNIE-4.5-VL-28B-A3B-Thinking은 상업적으로 라이센스가 있습니까?

A: Apache-2.0에 따라 라이선스가 부여되었으며 상용 애플리케이션에 사용할 수 있습니다.

Q: Thinking Images는 표/차트 이해에 어떻게 도움이 됩니까?

A: 다중 스케일 확대 및 세부 추적을 통해 작은 글씨/가는 선/주석의 인식 및 연관성이 향상됩니다.

Q: 추론에 권장되는 도구 체인은 무엇입니까?

A: 패들패들 + ERNIEKit이 권장됩니다. LoRA/SFT/DPO에서 미세 조정이 가능합니다.

Q: Qwen2.5-VL과 같은 모델과 비교하여 어떻게 선택합니까?

A: 추론 비용과 문서/차트 시나리오에 주의를 기울이면 이 모델을 평가하는 데 우선순위를 둘 수 있습니다. 마지막으로 비즈니스 세트로 검증합니다.

Q: 로컬 민영화 배포가 지원됩니까?

A: 예, 필요에 따라 로컬 당김 추를 미세 조정합니다. 충분한 비디오 메모리와 추론 최적화를 준비해야 합니다.

오픈 소스 상용 다중 모드 근거 모델: ERNIE-4.5-VL-28B-A3B-사고 분석

관련 기사

OpenAI, "재향군인을 위한 ChatGPT Plus" 출시: 미군 및 재향군인은 12개월 동안 무료로 신청할 수 있습니다.

GPT-5.1 Instant 및 GPT-5.1 Thinking이 출시되었으며 GPT-5는 중요한 반복 업데이트를 가져왔습니다

Mem0가 에이전트와 통합할 가치가 있을까요? 장기 기억력은 유용하지만, 경계를 관리해야 합니다

헤이스택은 어떤 팀에 적합한가요? 이것은 오히려 컴포스터블한 RAG 엔지니어링 프레임워크에 가깝습니다

추천 도구

오픈 소스 상용 다중 모드 근거 모델: ERNIE-4.5-VL-28B-A3B-사고 분석

관련 기사

OpenAI, "재향군인을 위한 ChatGPT Plus" 출시: 미군 및 재향군인은 12개월 동안 무료로 신청할 수 있습니다.

GPT-5.1 Instant 및 GPT-5.1 Thinking이 출시되었으며 GPT-5는 중요한 반복 업데이트를 가져왔습니다

Mem0가 에이전트와 통합할 가치가 있을까요? 장기 기억력은 유용하지만, 경계를 관리해야 합니다

헤이스택은 어떤 팀에 적합한가요? 이것은 오히려 컴포스터블한 RAG 엔지니어링 프레임워크에 가깝습니다

추천 도구

AI 도구 제출

제출 정보를 확인해주세요