Qwen-Image-Layered Open Source Interpretation: 그래프를 편집 가능한 RGBA 레이어로 분해하는 '네이티브 레이어링' 모델입니다
1. 초록 Qwen-Image-Layered는 Qwen 팀이 개발한 오픈 소스 이미지 '레이어링' 모델로, 일반 RGB 이미지를 물리적으로 분리된 여러 RGBA 레이어를 출력합니다. 일반적인 '동일한 평면 맵 편집'과 달리, 본체와 구조를 독립된 레이어로 분해하여 무거...
1. 초록 Qwen-Image-Layered는 Qwen 팀이 개발한 오픈 소스 이미지 '레이어링' 모델로, 일반 RGB 이미지를 물리적으로 분리된 여러 RGBA 레이어를 출력합니다. 일반적인 '동일한 평면 맵 편집'과 달리, 본체와 구조를 독립된 레이어로 분해하여 무거...
1. 추상 VTP(Visual Tokenizer Pre-training)는 MiniMax(Hailuo) 팀이 개발한 오픈 소스 시각 토큰나이저 사전 학습 프레임워크로, 확산 모델과 확산 변환기(DiT)와 같은 차세대 생성 모델을 대상으로 합니다. 프로젝트는 전통적인 '...
- 추상 PE-AV(Perception Encoder Audiovisual)는 Meta의 오픈소스 오디오-비주얼 공동 인코더 계열로, Perception Encoder를 기반으로 네이티브 오디오 기능을 추가하여 비디오, 오디오, 오디오, 비디오 및 텍스트 표현을 통합된...
1. 추상 HY World 1.5 (WorldPlay)는 텐센트의 훈위안 팀이 개발한 오픈 소스 실시간 세계 모델 프레임워크로, 스트리밍 생성을 지원하는 비디오 확산 모델을 핵심으로 합니다. 이 시스템은 텍스트나 이미지 입력을 기반으로 실시간으로 상호작용하는 3D 세계...
1. 추상 MiMo-V2-Flash는 Xiaomi MiMo 팀의 오픈 소스 하이브리드 전문가(MoE) 대형 언어 모델로, 총 매개변수 약 309B, 추론 중 활성화 매개변수 약 15B를 가지며, 추론, 프로그래밍, 에이전트 워크플로우를 낮은 추론 비용으로 균형 있게 조...
1. 추상 적인 롱캣-비디오-아바타는 롱캣-비디오 아키텍처를 기반으로 한 오디오 기반 아바타(가상 인간) 비디오 생성 모델로, "긴 시간 시퀀스, 강한 일관성, 현실적이고 동적인" 상황에 적합합니다. 이 시스템은 오디오-텍스트-비디오(AT2V), 오디오-텍스트-이미지-...