AI는 오픈 소스입니다. - Page 10

Qwen-Image-Layered Open Source Interpretation: 그래프를 편집 가능한 RGBA 레이어로 분해하는 '네이티브 레이어링' 모델입니다

1. 초록 Qwen-Image-Layered는 Qwen 팀이 개발한 오픈 소스 이미지 '레이어링' 모델로, 일반 RGB 이미지를 물리적으로 분리된 여러 RGBA 레이어를 출력합니다. 일반적인 '동일한 평면 맵 편집'과 달리, 본체와 구조를 독립된 레이어로 분해하여 무거...

Admin • 2025. 12. 20.

303

MiniMax 오픈소스 VTP: 확장 가능한 사전 학습은 Visual Tokenizer가 DiT 생성의 품질을 직접 향상시킬 수 있게 합니다

1. 추상 VTP(Visual Tokenizer Pre-training)는 MiniMax(Hailuo) 팀이 개발한 오픈 소스 시각 토큰나이저 사전 학습 프레임워크로, 확산 모델과 확산 변환기(DiT)와 같은 차세대 생성 모델을 대상으로 합니다. 프로젝트는 전통적인 '...

Admin • 2025. 12. 19.

107

PE-AV(Perception Encoder 시청각 영상) 오픈 소스 해석: SAM 오디오를 구동하는 오디오 분리 엔진

- 추상 PE-AV(Perception Encoder Audiovisual)는 Meta의 오픈소스 오디오-비주얼 공동 인코더 계열로, Perception Encoder를 기반으로 네이티브 오디오 기능을 추가하여 비디오, 오디오, 오디오, 비디오 및 텍스트 표현을 통합된...

Admin • 2025. 12. 19.

HY World 1.5 (WorldPlay) 오픈 소스 릴리스: 라이브 스트리밍 비디오 확산을 위한 인터랙티브 월드 모델

1. 추상 HY World 1.5 (WorldPlay)는 텐센트의 훈위안 팀이 개발한 오픈 소스 실시간 세계 모델 프레임워크로, 스트리밍 생성을 지원하는 비디오 확산 모델을 핵심으로 합니다. 이 시스템은 텍스트나 이미지 입력을 기반으로 실시간으로 상호작용하는 3D 세계...

Admin • 2025. 12. 17.

258

MiMo-V2-Flash 오픈 소스 해석: 309B MoE, 15B 활성화 매개변수 및 256K 긴 문맥

1. 추상 MiMo-V2-Flash는 Xiaomi MiMo 팀의 오픈 소스 하이브리드 전문가(MoE) 대형 언어 모델로, 총 매개변수 약 309B, 추론 중 활성화 매개변수 약 15B를 가지며, 추론, 프로그래밍, 에이전트 워크플로우를 낮은 추론 비용으로 균형 있게 조...

Admin • 2025. 12. 17.

361

롱캣-비디오-아바타 오픈 소스 해석: 오디오 기반 롱 비디오 아바타 생성을 더 안정적이고 현실적으로 만드는 방법

1. 추상 적인 롱캣-비디오-아바타는 롱캣-비디오 아키텍처를 기반으로 한 오디오 기반 아바타(가상 인간) 비디오 생성 모델로, "긴 시간 시퀀스, 강한 일관성, 현실적이고 동적인" 상황에 적합합니다. 이 시스템은 오디오-텍스트-비디오(AT2V), 오디오-텍스트-이미지-...

Admin • 2025. 12. 17.

231

Qwen-Image-Layered Open Source Interpretation: 그래프를 편집 가능한 RGBA 레이어로 분해하는 '네이티브 레이어링' 모델입니다

MiniMax 오픈소스 VTP: 확장 가능한 사전 학습은 Visual Tokenizer가 DiT 생성의 품질을 직접 향상시킬 수 있게 합니다

PE-AV(Perception Encoder 시청각 영상) 오픈 소스 해석: SAM 오디오를 구동하는 오디오 분리 엔진

HY World 1.5 (WorldPlay) 오픈 소스 릴리스: 라이브 스트리밍 비디오 확산을 위한 인터랙티브 월드 모델

MiMo-V2-Flash 오픈 소스 해석: 309B MoE, 15B 활성화 매개변수 및 256K 긴 문맥

롱캣-비디오-아바타 오픈 소스 해석: 오디오 기반 롱 비디오 아바타 생성을 더 안정적이고 현실적으로 만드는 방법

추천 도구

AI 도구 제출

제출 정보를 확인해주세요