오픈 소스 상용 다중 모드 근거 모델: ERNIE-4.5-VL-28B-A3B-사고 분석
1. 초록 ERNIE-4.5-VL-28B-A3B-Thinking은 Baidu의 새로운 오픈 소스 경량 다중 모드 추론 모델로, 총 매개변수 28B와 활성화 약 3B를 갖추고 있으며, 시각과 언어의 의미론적 정렬과 "이미지로 생각하기" 능력에 중점을 두고 세부 사항에 대...
1. 초록 ERNIE-4.5-VL-28B-A3B-Thinking은 Baidu의 새로운 오픈 소스 경량 다중 모드 추론 모델로, 총 매개변수 28B와 활성화 약 3B를 갖추고 있으며, 시각과 언어의 의미론적 정렬과 "이미지로 생각하기" 능력에 중점을 두고 세부 사항에 대...
I. 초록 Kimi K2 Thinking은 Moonshot에서 출시한 오픈소스 "사고" 지능형 에이전트 모델로, 추론 과정에서 동적 도구 호출과 다단계 계획을 강조합니다. 공식적으로 44.9%의 HLE와 60.2%의 BrowseComp를 달성했으며, 200~300회의 ...
I. 초록 UNO-Bench는 지각과 추론 차원을 모두 포괄하는 "단일 모델/전체 모델" 문제의 통합 평가를 위한 오픈소스 벤치마크입니다. 중국어 실제 상황 문제와 다단계 주관식 질의응답(MO) 문제를 제공합니다. 데이터와 도구는 고품질의 인간 주도적 구성을 강조하며,...
I. 초록 LongCat-Flash-Omni는 Meituan LongCat 팀이 개발한 오픈 소스 멀티모달(Omni-modal) 모델입니다. 텍스트, 이미지, 오디오 및 비디오에 대한 통합 모델링을 제공하여 LongCat-Flash의 ScMoE 아키텍처를 확장합니다. ...
I. 요약 MiniMax M2는 MiniMax의 오픈소스 추론 및 프로그래밍 지향 모델로, "에이전트 및 코드 네이티브"로 포지셔닝됩니다. 공식 소개에 따르면, "전문가 혼합(MoE) 아키텍처를 기반으로 하는 이 모델은 총 매개변수 크기가 약 230B이지만, 한 번에 ...
I. 요약 DeepSeek-OCR은 DeepSeek의 오픈소스 "상황적 광학 압축" 모델입니다. 문서 텍스트를 시각적 토큰 으로 인코딩한 후 다시 텍스트로 디코딩합니다. 이 모델의 목표는 인식 정확도를 유지하면서 LLM의 상황적 토큰 비용을 크게 줄이는 것입니다. 커뮤...