돌아가기 AI는 오픈 소스입니다.
오픈 소스 상용 다중 모드 근거 모델: ERNIE-4.5-VL-28B-A3B-사고 분석

오픈 소스 상용 다중 모드 근거 모델: ERNIE-4.5-VL-28B-A3B-사고 분석

AI는 오픈 소스입니다. Admin 102 회 조회

1. 초록

ERNIE-4.5-VL-28B-A3B-Thinking은 Baidu의 새로운 오픈 소스 경량 다중 모드 추론 모델로, 총 매개변수 28B와 활성화 약 3B를 갖추고 있으며, 시각과 언어의 의미론적 정렬과 "이미지로 생각하기" 능력에 중점을 두고 세부 사항에 대한 확대/축소 주의를 지원합니다. 이 모델은 Apache-2.0에 따라 라이선스가 부여되었으며 상용으로 이용 가능합니다. 공식적으로는 문서 및 그래프 이해와 같은 벤치마크에서 Gemini-2.5-Pro 및 GPT-5-High보다 우수합니다(결론은 재현 가능한 실험에 따라 결정됨).

2. 핵심 기능

1. 3B는 MoE 아키텍처를 활성화합니다: 추론 비용을 제어할 수 있는 동시에 복잡한 작업의 성능을 향상시킵니다.

2. 이미지 사고: 표 읽기, OCR 및 레이아웃 이해를 향상시키기 위한 다중 스케일 확대/검색 세부 정보.

3. 긴 문서/테이블 분석: 문서 Q&A, 테이블 및 차트 요소 추출 시나리오에 최적화되어 있습니다.

4. 상업적 용도로 개방: Apache-2.0 라이선스로 기업이 다시 구현하고 개발하는 데 편리합니다.

5. 교육 및 정렬 도구 모음: SFT, LoRA, DPO 및 기타 프로세스를 포괄하는 ERNIEKit이 장착되어 있습니다.

3. 설치

1. 모델 획득: Hugging Face 또는 ModelScope에서 무게감과 예제를 가져옵니다.

2. 환경: PaddlePaddle과 ERNIEKit을 사용하는 것을 선호합니다. 추론을 위해 공백/예제를 참조할 수도 있습니다.

3. 미세 조정: LoRA/SFT는 ERNIEKit에서 즉시 사용할 수 있으며 비디오 메모리에 따라 낮은 순위 또는 전체 솔루션을 선택할 수 있습니다.

4. 일반적인 사용 사례

1. 문서 Q&A 및 레이아웃 이해: 송장, 규정 준수 문서 및 매뉴얼의 구조화된 추출.

2. 차트 이해: 좌표/범례/데이터 시리즈를 자동으로 식별하고 요약 및 결론을 생성합니다.

3. 엔터프라이즈 지식 검색: RAG와 결합하여 이미지 및 PDF에 대한 다중 모드 검색 및 답변.

4. 위험 관리 및 품질 검사: 청구서 비교, 그래픽 일관성 및 요소 확인.

5. 생태계 및 경쟁 제품

1. 생태계: GitHub 통합 저장소, AI Studio 온라인 경험, ModelScope 및 HF 릴리스.

2. 경쟁자: Qwen2.5-VL, Llama-3.2-Vision, InternVL2.5 등; ERNIE의 차이점은 3B 활성화 추론과 "이미지 사고"의 추론 효율성입니다. 실제 효과는 장면의 재현에 따라 달라질 수 있습니다.

6. 제한 사항 및 주의 사항

1. 벤치마크 진술을 재현해야 합니다: 폐쇄 소스/다른 평가 설정과의 정렬에서 벗어날 위험이 있습니다.

2. 기억 및 지연: 사고 모드는 추론 단계 수와 지연을 증가시킵니다.

3. 다국어 적용 범위: 중국어/영어 성능은 비교적 안정적이며 다른 언어는 추가로 평가해야 합니다.

4. 규정 준수 및 데이터 보안: 개인 정보 보호 관련 문서에 마스킹 및 액세스 제어를 추가하는 것이 좋습니다.

7. 프로젝트 주소

 : https://huggingface.co/baidu/ERNIE-4.5-VL-28B-A3B-Thinking

8. 자주 묻는 질문

: ERNIE-4.5-VL-28B-A3B-Thinking은 상업적으로 라이센스가 있습니까?

A: Apache-2.0에 따라 라이선스가 부여되었으며 상용 애플리케이션에 사용할 수 있습니다.

Q: Thinking Images는 표/차트 이해에 어떻게 도움이 됩니까?

A: 다중 스케일 확대 및 세부 추적을 통해 작은 글씨/가는 선/주석의 인식 및 연관성이 향상됩니다.

Q: 추론에 권장되는 도구 체인은 무엇입니까?

A: 패들패들 + ERNIEKit이 권장됩니다. LoRA/SFT/DPO에서 미세 조정이 가능합니다.

Q: Qwen2.5-VL과 같은 모델과 비교하여 어떻게 선택합니까?

A: 추론 비용과 문서/차트 시나리오에 주의를 기울이면 이 모델을 평가하는 데 우선순위를 둘 수 있습니다. 마지막으로 비즈니스 세트로 검증합니다.

Q: 로컬 민영화 배포가 지원됩니까?

A: 예, 필요에 따라 로컬 당김 추를 미세 조정합니다. 충분한 비디오 메모리와 추론 최적화를 준비해야 합니다.

ERNIE4.5VL28B 경량 멀티모달 모델 ERNIE4.5 이미지 사고 및 읽기 능력 ERNIE4.5Apache 2.0 상용 라이선스 ERNIE4.5 트리플 B는 MoE 아키텍처를 활성화합니다. ERNIE4.5 시각 언어 의미 체계 정렬 ERNIE4.5 긴 문서 테이블 분석 ERNIE4.5 문서 Q&A 레이아웃 이해 ERNIE4.5 차트 좌표 범례 인식 ERNIE4.5 작은 인쇄 세부 정보 확대 ERNIE4.5 엔터프라이즈급 컴플라이언스 착륙 ERNIE4.5는 PaddlePaddle 추론을 지원합니다. ERNIE4.5에는 ERNIEKit 교육이 함께 제공됩니다. ERNIE4.5 LoRA 트림은 즉시 사용할 수 있습니다. ERNIE4.5SFT는 프로세스를 DPO에 맞춥니다. ERNIE4.5RAG 멀티모달 검색 Q&A ERNIE4.5 청구서 및 송장 정보 추출 ERNIE4.5OCR 레이아웃 구조 ERNIE4.5 위험 관리 품질 검사 적합성 검증 ERNIE4.5PDF 이미지 통합 분석 ERNIE4.5 테이블 요소가 자동으로 추출됩니다. ERNIE4.5 차트 데이터 시리즈 이해 ERNIE4.5 웹 검색 멀티모달 조합 ERNIE4.5와 QwenVL 비교 검토 ERNIE4.5 대 LlamaVision ERNIE4.5 및 InternVL 차이점 ERNIE4.5는 비공개 소스 벤치마크 주장을 능가합니다. 검증 대상 ERNIE4.5 재현 가능한 실험 ERNIE4.5 추론 비용 지연 평가 ERNIE4.5 메모리 점유 및 배포 ERNIE4.5 지역 민영화 배포 지침 ERNIE4.5 다국어 커버리지 기능 평가 ERNIE4.5는 중국어와 영어로 탄탄한 성능을 발휘했습니다. ERNIE4.5 엔터프라이즈 시나리오 적용 사례 ERNIE4.5 지식 기반 Q&A 연습 ERNIE4.5 모델 중량 획득 경로 ERNIE4.5HuggingFace 모델 페이지 ERNIE4.5ModelScope 동시 출시 ERNIE4.5AI스터디오 온라인 경험 ERNIE4.5 이미지 확대 및 축소 추론 ERNIE4.5 문서 다이어그램 공동 이해 ERNIE4.5 모델 학습 정렬 도구 체인 ERNIE4.5 저수준 미세 조정 메모리 친화적 ERNIE4.5 다중 스케일 세부 추적 전략 ERNIE4.5 테이블 차트 요약 생성 ERNIE4.5 규정 준수 및 데이터 보안 권장 사항 ERNIE4.5 개인 정보 보호 문서 둔감화 ERNIE4.5는 Gemini와 비교됩니다. ERNIE4.5는 GPT 시리즈와 비교됩니다. ERNIE4.5는 기업 2차 개발을 위한 것입니다. ERNIE4.5 오픈 소스 프로토콜은 경계를 사용합니다. ERNIE4.5 비즈니스 세트 효과 검증

추천 도구

더보기