돌아가기 AI는 오픈 소스입니다.
Tencent HunyuanImage 3.0 오픈 소스, 80B MoE Wensheng 그래프 모델, 긴 프롬프트 및 내장 텍스트가 더욱 강력해졌습니다.

Tencent HunyuanImage 3.0 오픈 소스, 80B MoE Wensheng 그래프 모델, 긴 프롬프트 및 내장 텍스트가 더욱 강력해졌습니다.

AI는 오픈 소스입니다. Admin 120 회 조회

I. 요약

HunyuanImage 3.0은 텐센트 Hunyuan의 오픈소스 네이티브 멀티모달 텍스트-이미지 변환 모델입니다. MoE 아키텍처와 트랜스퓨전 방식을 활용하여 텍스트와 이미지 학습을 통합합니다. 공식 정보에 따르면, 이 모델은 80바이트 이상의 매개변수를 제공하며, 추론을 위해 토큰당 약 13바이트가 활성화됩니다. 수천 개의 단어 프롬프트를 이해하고, 이미지에서 텍스트를 정확하게 생성하며, "세상 지식을 활용한 추론"을 강조합니다. 현재 버전은 텍스트-이미지 변환에 중점을 두고 있으며, 이미지-이미지 변환, 편집, 그리고 다중 라운드 상호작용으로 확장될 예정입니다.

  1. 핵심 기능

1. MoE×네이티브 멀티모달리티 : 통합 자기회귀 프레임워크, 깊이 결합된 LLM 및 확산 생성.

2. 대규모 학습 : 50억 개의 이미지-텍스트 쌍과 다중 소스 데이터, 6TB의 텍스트 코퍼스(공식 표준에 따름)를 결합했습니다.

3. 긴 프롬프트 정렬 : 복잡하고 수천 단어로 구성된 프롬프트는 의미적 정렬이 더 강력합니다.

4. 텍스트 가독성 : 포스터/GUI/양식에서 "그림 속 텍스트" 생성이 더 안정적입니다.

5. 추론 최적화 : FlashAttention, FlashInfer와 호환되며 다중 GPU를 지원합니다.

  1. 설치
  2. 환경: Linux, Python 3.12, PyTorch 2.7.1(CUDA 12.8).
  3. 무게: Hugging Face에서 로컬 디렉토리로 다운로드합니다(디렉토리 이름에 "."을 포함하지 마세요).

3. 종속성: pip install -r requirements.txt, FlashAttention/FlashInfer의 선택적 설치.

4. 예: run_image_gen.py --model-id ./HunyuanImage-3 --prompt "…" 을 실행하여 생성합니다.

일반적인 사용 사례

  1. 브랜드 포스터/전자상거래 배너: 명확하고 읽기 쉬운 텍스트와 복잡한 레이아웃이 필요합니다.
  2. 만화 및 일러스트: 긴 설명부터 다중 요소 이미지까지 일관성을 관리합니다.
  3. 교육적 콘텐츠 및 이모티콘 패키지: 그림과 이미지의 통일된 스타일과 표준화된 텍스트 출력.
  4. 제품/UI 컨셉트 맵: 인터페이스 요소와 레이아웃 텍스트의 제어 가능한 생성.
  5. 생태계 및 경쟁 제품
  6. 생태계: GitHub 추론 코드, Hugging Face 가중치, 로컬 Gradio 데모를 제공합니다. VLLM을 지원하고, Instruct/Distillation과 그래프 생성을 출시할 계획입니다.
  7. 경쟁사: SDXL, SD3, FLUX와 같은 오픈소스 애플리케이션은 대부분 DiT 기반입니다. HunyuanImage 3.0은 긴 프롬프트와 텍스트 렌더링에 중점을 두고 MoE 및 네이티브 멀티모달리티와 차별화됩니다. 구체적인 성능은 공개 벤치마크 및 현장 테스트를 통해 검증됩니다.

VI. 제한 사항 및 주의사항

  1. 높은 리소스 요구 사항: ≥3×80GB 비디오 메모리가 권장됩니다. 처음으로 가속 라이브러리를 활성화하면 추가 컴파일 시간이 필요할 수 있습니다.
  2. 라이선스 준수: Hugging Face는 "tencent-hunyuan-community" 라이선스를 표시합니다. 사용 전에 저장소 라이선스를 주의 깊게 읽어주세요.
  3. 기능 범위: 현재는 텍스트-이미지, 이미지-이미지, 편집 및 다중 라운드 상호 작용만 로드맵에 있습니다.
  4. 프롬프트 엔지니어링: 사전 훈련된 가중치는 기본적으로 프롬프트를 재정의하지 않지만, 지시 가중치는 자체 재정의 및 "사고" 체인을 지원합니다.
  5. 프로젝트 주소

https://github.com/Tencent-Hunyuan/HunyuanImage-3.0

  1. 자주 묻는 질문

질문: HunyuanImage 3.0의 하드웨어 요구 사항은 무엇입니까?

A: 공식 권장 사항은 디스크 크기 약 170GB, 비디오 메모리 ≥ 3×80GB, CUDA 12.8, PyTorch 2.7.1입니다.

질문: 추론 속도를 개선하려면 어떻게 해야 하나요?

답변: FlashAttention과 FlashInfer를 설치하고, 적절한 Attention/MoE 구현을 갖춘 여러 개의 GPU를 사용하세요.

질문: 지시형 가중치와 사전 훈련된 가중치의 차이점은 무엇인가요?

A: 사전 훈련은 기본 생성에 초점을 맞춥니다. Instruct는 긴 프롬프트에 대한 강력한 제어를 통해 자체 재작성 및 "사고" 과정에 대한 프롬프트도 추가로 지원합니다.

질문: 이미지 생성 및 편집을 지원하나요?

A: 공식 로드맵에 지원이 계획되어 있으며, 현재 버전은 Wenshengtu에 중점을 두고 있습니다.

질문: 라이센스를 상업적으로 사용할 수 있나요?

답변: "텐센트-훈위안-커뮤니티"의 구체적인 약관에 따라, 평가하기 전에 창고 및 모델 카드의 라이센스 지침을 읽어 보시기 바랍니다.

HunyuanImage 3.0 오픈소스 릴리스 HunyuanImage3.0MoE 다중 모드 HunyuanImage3.0수혈 훈련 HunyuanImage3.0 Wensheng 이미지 모델 HunyuanImage3.0 긴 팁 정렬 HunyuanImage3.0 천 단어 팁 HunyuanImage3.0에는 그림에 명확한 텍스트가 있습니다. HunyuanImage3.0 포스터 텍스트 생성 HunyuanImage3.0GUI 텍스트 생성 HunyuanImage3.0 폼 텍스트 렌더링 HunyuanImage3.0 세계 지식 추론 HunyuanImage3.0 매개변수 80B HunyuanImage3.0이 13B를 활성화합니다 HunyuanImage3.05B 사진과 텍스트 HunyuanImage3.06T 텍스트 코퍼스 HunyuanImage3.0FlashAttention 지원 HunyuanImage3.0FlashInfer 가속 HunyuanImage3.0 다중 GPU 추론 HunyuanImage3.0 설치 가이드 HunyuanImage3.0 무게 다운로드 HunyuanImage3.0HuggingFace Weights HunyuanImage3.0Gradio 데모 HunyuanImage3.0GitHub 저장소 HunyuanImage3.0run\_image\_gen 예 HunyuanImage3.0 브랜드 포스터 생성 HunyuanImage3.0 전자상거래 배너 HunyuanImage3.0 만화 일러스트 HunyuanImage3.0 다중 요소 일관성 HunyuanImage3.0 교육용 다이어그램 HunyuanImage3.0 이모티콘 패키지 생성 HunyuanImage3.0UI 개념도 HunyuanImage3.0 레이아웃 및 텍스트 제어 가능 HunyuanImage3.0 대 SDXL HunyuanImage3.0 대 SD3 HunyuanImage3.0 대 FLUX HunyuanImage3.0VLLM 프로젝트 HunyuanImage3.0 지시 가중치 HunyuanImage3.0 사전 학습된 가중치 HunyuanImage3.0은 자체 재작성을 촉구합니다. HunyuanImage3.0 사고 체인 생성 HunyuanImage3.0 비디오 메모리 요구 사항: 3x80GB 혼위안Image3.0CUDA12_8 헌위안이미지3.0PyTorch2\_7\_1 HunyuanImage3.0 커뮤니티 라이선스 HunyuanImage3.0 로컬 배포 HunyuanImage3.0 이미지 생성 경로 HunyuanImage3.0 편집 기능 계획 HunyuanImage3.0 다중 라운드 상호 작용 경로 HunyuanImage3.0 엔지니어링 기술 팁 HunyuanImage3.0 엔터프라이즈 애플리케이션 시나리오

추천 도구

더보기