I. 요약
HunyuanImage 3.0은 텐센트 Hunyuan의 오픈소스 네이티브 멀티모달 텍스트-이미지 변환 모델입니다. MoE 아키텍처와 트랜스퓨전 방식을 활용하여 텍스트와 이미지 학습을 통합합니다. 공식 정보에 따르면, 이 모델은 80바이트 이상의 매개변수를 제공하며, 추론을 위해 토큰당 약 13바이트가 활성화됩니다. 수천 개의 단어 프롬프트를 이해하고, 이미지에서 텍스트를 정확하게 생성하며, "세상 지식을 활용한 추론"을 강조합니다. 현재 버전은 텍스트-이미지 변환에 중점을 두고 있으며, 이미지-이미지 변환, 편집, 그리고 다중 라운드 상호작용으로 확장될 예정입니다.
- 핵심 기능
1. MoE×네이티브 멀티모달리티 : 통합 자기회귀 프레임워크, 깊이 결합된 LLM 및 확산 생성.
2. 대규모 학습 : 50억 개의 이미지-텍스트 쌍과 다중 소스 데이터, 6TB의 텍스트 코퍼스(공식 표준에 따름)를 결합했습니다.
3. 긴 프롬프트 정렬 : 복잡하고 수천 단어로 구성된 프롬프트는 의미적 정렬이 더 강력합니다.
4. 텍스트 가독성 : 포스터/GUI/양식에서 "그림 속 텍스트" 생성이 더 안정적입니다.
5. 추론 최적화 : FlashAttention, FlashInfer와 호환되며 다중 GPU를 지원합니다.
- 설치
- 환경: Linux, Python 3.12, PyTorch 2.7.1(CUDA 12.8).
- 무게: Hugging Face에서 로컬 디렉토리로 다운로드합니다(디렉토리 이름에 "."을 포함하지 마세요).
3. 종속성: pip install -r requirements.txt, FlashAttention/FlashInfer의 선택적 설치.
4. 예: run_image_gen.py --model-id ./HunyuanImage-3 --prompt "…" 을 실행하여 생성합니다.
일반적인 사용 사례
- 브랜드 포스터/전자상거래 배너: 명확하고 읽기 쉬운 텍스트와 복잡한 레이아웃이 필요합니다.
- 만화 및 일러스트: 긴 설명부터 다중 요소 이미지까지 일관성을 관리합니다.
- 교육적 콘텐츠 및 이모티콘 패키지: 그림과 이미지의 통일된 스타일과 표준화된 텍스트 출력.
- 제품/UI 컨셉트 맵: 인터페이스 요소와 레이아웃 텍스트의 제어 가능한 생성.
- 생태계 및 경쟁 제품
- 생태계: GitHub 추론 코드, Hugging Face 가중치, 로컬 Gradio 데모를 제공합니다. VLLM을 지원하고, Instruct/Distillation과 그래프 생성을 출시할 계획입니다.
- 경쟁사: SDXL, SD3, FLUX와 같은 오픈소스 애플리케이션은 대부분 DiT 기반입니다. HunyuanImage 3.0은 긴 프롬프트와 텍스트 렌더링에 중점을 두고 MoE 및 네이티브 멀티모달리티와 차별화됩니다. 구체적인 성능은 공개 벤치마크 및 현장 테스트를 통해 검증됩니다.
VI. 제한 사항 및 주의사항
- 높은 리소스 요구 사항: ≥3×80GB 비디오 메모리가 권장됩니다. 처음으로 가속 라이브러리를 활성화하면 추가 컴파일 시간이 필요할 수 있습니다.
- 라이선스 준수: Hugging Face는 "tencent-hunyuan-community" 라이선스를 표시합니다. 사용 전에 저장소 라이선스를 주의 깊게 읽어주세요.
- 기능 범위: 현재는 텍스트-이미지, 이미지-이미지, 편집 및 다중 라운드 상호 작용만 로드맵에 있습니다.
- 프롬프트 엔지니어링: 사전 훈련된 가중치는 기본적으로 프롬프트를 재정의하지 않지만, 지시 가중치는 자체 재정의 및 "사고" 체인을 지원합니다.
- 프로젝트 주소
https://github.com/Tencent-Hunyuan/HunyuanImage-3.0
- 자주 묻는 질문
질문: HunyuanImage 3.0의 하드웨어 요구 사항은 무엇입니까?
A: 공식 권장 사항은 디스크 크기 약 170GB, 비디오 메모리 ≥ 3×80GB, CUDA 12.8, PyTorch 2.7.1입니다.
질문: 추론 속도를 개선하려면 어떻게 해야 하나요?
답변: FlashAttention과 FlashInfer를 설치하고, 적절한 Attention/MoE 구현을 갖춘 여러 개의 GPU를 사용하세요.
질문: 지시형 가중치와 사전 훈련된 가중치의 차이점은 무엇인가요?
A: 사전 훈련은 기본 생성에 초점을 맞춥니다. Instruct는 긴 프롬프트에 대한 강력한 제어를 통해 자체 재작성 및 "사고" 과정에 대한 프롬프트도 추가로 지원합니다.
질문: 이미지 생성 및 편집을 지원하나요?
A: 공식 로드맵에 지원이 계획되어 있으며, 현재 버전은 Wenshengtu에 중점을 두고 있습니다.
질문: 라이센스를 상업적으로 사용할 수 있나요?
답변: "텐센트-훈위안-커뮤니티"의 구체적인 약관에 따라, 평가하기 전에 창고 및 모델 카드의 라이센스 지침을 읽어 보시기 바랍니다.