I. 要約
HunyuanImage 3.0は、Tencent Hunyuanが提供するオープンソースのネイティブマルチモーダルテキスト画像変換モデルです。MoEアーキテクチャとトランスフュージョンアプローチを採用し、テキストと画像のトレーニングを統合しています。公式情報によると、このモデルは80バイトを超えるパラメータを誇り、推論にはトークンごとに約13バイトが有効化されます。数千語のプロンプトを理解し、画像から正確にテキストを生成し、「世界知識による推論」を重視しています。現在のバージョンはテキスト画像変換に重点を置いており、今後は画像画像変換、編集、マルチラウンドインタラクションへと拡張される予定です。
- コア機能
1. MoE×ネイティブマルチモダリティ:統合自己回帰フレームワーク、深く結合したLLMと拡散生成。
2.大規模トレーニング:50億の画像とテキストのペアとマルチソースデータ、6TBのテキストコーパス(公式基準による)を組み合わせました。
3.長いプロンプトのアライメント: 複雑で千語に及ぶプロンプトでは、意味的なアライメントが強化されます。
4.テキストの読みやすさ: ポスター/GUI/フォーム内の「画像内のテキスト」の生成がより安定します。
5.推論の最適化: FlashAttention、FlashInfer と互換性があり、複数の GPU をサポートします。
- インストール
- 環境: Linux、Python 3.12、PyTorch 2.7.1 (CUDA 12.8)。
- 重量: Hugging Face からローカル ディレクトリにダウンロードします (ディレクトリ名に「.」を含めないでください)。
3. 依存関係: pip install -r requirements.txt、FlashAttention/FlashInfer のオプションのインストール。
4. 例: run_image_gen.py --model-id ./HunyuanImage-3 --prompt "…" を実行して生成します。
典型的な使用例
- ブランドポスター/eコマースバナー: 明確で読みやすいテキストと複雑なレイアウトが必要です。
- コミックとイラスト: 長い説明から複数の要素を含む画像までの一貫性の制御。
- 教育コンテンツと絵文字パッケージ: 写真や画像内のテキストの統一されたスタイルと標準化された出力。
- 製品/UI コンセプト マップ: インターフェイス要素とレイアウト テキストの制御可能な生成。
- エコシステムと競合製品
- エコシステム: GitHub 推論コード、Hugging Face の重み、ローカルの Gradio デモを提供します。VLLM のサポート、Instruct/Distillation の起動、グラフ生成を計画しています。
- 競合:SDXL、SD3、FLUXなどのオープンソースアプリケーションは、主にDiTベースです。HunyuanImage 3.0は、MoEとネイティブマルチモーダル機能によって差別化を図り、長文プロンプトとテキストレンダリングに重点を置いています。具体的なパフォーマンスは、公開ベンチマークとフィールドテストの結果に基づきます。
VI. 制限事項と注意事項
- リソース要件が高い: 3×80GB 以上のビデオ メモリが推奨されます。アクセラレーション ライブラリを初めて有効にする場合は、追加のコンパイル時間が必要になる場合があります。
- ライセンス遵守:Hugging Faceはライセンスを「tencent-hunyuan-community」と表示しています。ご利用前にリポジトリのライセンスをよくお読みください。
- 機能範囲: 現在、ロードマップには、テキストから画像への変換、画像から画像への変換、編集、および複数ラウンドのインタラクションのみが含まれています。
- プロンプト エンジニアリング: 事前トレーニング済みの重みはデフォルトではプロンプトをオーバーライドしませんが、Instruct の重みは自己オーバーライドと「思考」チェーンをサポートします。
- プロジェクト住所
https://github.com/Tencent-Hunyuan/HunyuanImage-3.0
- よくある質問
Q: HunyuanImage 3.0 のハードウェア要件は何ですか?
A: 公式の推奨は、ディスク サイズ約 170 GB、ビデオ メモリ ≥ 3×80 GB、CUDA 12.8、PyTorch 2.7.1 です。
Q: 推論速度を向上させるにはどうすればよいでしょうか?
A: FlashAttention と FlashInfer をインストールし、適切なアテンション/MoE 実装で複数の GPU を使用します。
Q: Instruct の重みと事前トレーニング済みの重みの違いは何ですか?
A: 事前トレーニングは基本的な生成に重点を置いています。Instruct は、長いプロンプトをより強力に制御し、自己書き換えと「思考」プロセスのプロンプトをさらにサポートします。
Q: 画像の生成と編集はサポートされていますか?
A: 公式ロードマップではサポートが計画されており、現在のバージョンでは Wenshengtu に重点を置いています。
Q: ライセンスは商用利用できますか?
A: 「tencent-hunyuan-community」の具体的な規約に従って、評価する前に倉庫とモデルカードのライセンス指示をお読みください。