HY-Motion 1.0 オープンソース分析:テンセントのHunyuan 10億パラメータDiT文生アクションモデルの入門ガイド

1. 要旨

HY-Motion 1.0は、騰訊の混沌源によるテキストからモーションへのモデルのシリーズで、拡散トランスフォーマー(DiT)とフローマッチングを基に、自然言語記述に基づく骨格駆動の3Dキャラクターアニメーションシーケンスを生成するため、これらは一般的なDCCやエンジンのアニメーションパイプラインと連携してリダイレクトやアセット化が可能です。このプロジェクトは標準版(約1.0Bパラメータ)と軽量版(約0.46Bパラメータ)の両方を提供し、「事前学習済み→高品質な微調整→強化学習」の完全なリンクを用いて、意味の整合性や物理的な自然さを向上させる訓練に活用しています。

2. コア機能

1. 10億スケールDiT + フローマッチング:DiTスタイルのフローマッチング生成フレームワークを10億パラメータに拡張し、より強力な命令理解とアクション品質を目指します。

2. 全段階でのクローズドループトレーニング:大規模な事前学習は一般的な行動事前学習を行い、その後高品質なデータで詳細と滑らかさを微調整し、最後に人間のフィードバックや報酬モデルに関連する強化学習を通じてテキストの意味論と行動の自然さをさらに整合させます。

3. 豊富なカテゴリカバレッジ:データパイプラインのクリーンアップと注釈付け後、6つのカテゴリと200+アクションカテゴリをカバーし、より「使いやすい」アクションライブラリを簡単に構築できます。

4. 工学的推論とオプションのプロンプト強化:ローカルバッチ推論スクリプトとGradioインターフェースの提供; また、オプションの「Duration Prediction and Prompt Rewriting」モジュールもサポートしています(有効にしていない場合は、関連するパラメータを明示的にオフにする必要があります)。

3. 設置

PyTorchをインストールします(公式ガイドラインに従ってCUDA/CPUバージョンを選択してください)。

2. コードをプルし依存関係をインストール:リポジトリgit clone後、ディレクトリ内のpip install -r requirements.txtを実行します。

3. 重みのダウンロード:リポジトリの指示に従って、モデルの重みを指定されたディレクトリ(標準版またはLite版)に配置ckpts/README.md。

4. 推論を実行する:ローカルバッチ生成にlocal_infer.pyを使用(--model_pathで対応する重みディレクトリを指してください)。

5. 可視化開始:gradio_app.pyを実行してローカルウェブインターフェースを開き、インタラクティブなプレビューとテストを行います。

4. 典型的なユースケース

ゲームおよびアニメーションのプレハブ化:自然言語を使ってアクションドラフトを素早く生成し、ストーリーボードからアクションライブラリへの反復サイクルを短縮します。
デジタル人間/バーチャルアンカーアクションライブラリ:スタイル、リズム、感情のコマンドに応じて一括で資料を生成し、骨の方向性転換とクリーニングを統一的に行う。
DCC/Engine パイプラインアクセス:生成されたスケルトンアクションをBlender/MayaやUnity/Unrealにインポートし、IK、リダイレクト、カーブ編集で再利用可能なアセットとして実装します。
データ強化および検索支援:アクションジェネレーターとして、ロングテールアクション記述のカバー範囲を拡大したり、「テキストアクション」アラインメントのための検索および注釈プロセスを構築するために使われます(手動のランダム検査が必要です)。

5. 生態系と競合製品

生態学的配置:HY-Motion 1.0は「テキスト→3D人間の動き」リンクに向けられており、SMPL/SMPLH関連の人間表現、DCCツールチェーン、プロンプトエンジニアリングモジュールと組み合わせて「生産可能な」アクションアセットプロセスを形成できます。
オープンソースの競合他社の参考文献:MDM(Human Motion Diffusion Model)、T2M-GPT、初期のテキスト・トゥ・モーションベースライン、HumanML3Dデータ/ベンチマークがコミュニティで広く利用されています。 HY-Motion 1.0の主な違いは1Bスケールとより完全なトレーニングクローズドループです。それでも、迅速な配分、キャラクターの骨格、ランディングパイプラインに基づいて実際の利点と欠点を比較・評価することが推奨されます。

6. 制限事項と注意事項

計算能力とレイテンシ:10億パラメータ推論はビデオメモリとスループットにより高い要求を持ち、リソース制約のシナリオではLite版を優先することがあります。
スケルトンとキャラクターの違い:生成されるのはスケルトン駆動のアクションであり、特定のキャラクターに着地するには通常、方向変更、骨の長さ適応、足底のスライドステップ補正、そして間隔補正が必要です。
プロンプト書き換え/持続時間予測依存性:該当モジュールが有効の場合、利用可能なサービスアドレスまたはローカルモデルを設定する必要があります。それ以外の場合は、エラーを避けるために対応するパラメータをオフにする必要があります。
カテゴリおよびデータバイアス:200+クラスカバレッジは「どの記述も安定している」という意味ではなく、複雑な相互作用、小道具、複数人などのシナリオは追加の制約や後処理を必要とする場合があります。
ライセンスおよびコンプライアンス:重みやコードは特定のコミュニティによってライセンスされており、商業化や配布前に用語を慎重に確認し、生成されたコンテンツに対して著作権およびセキュリティレビューを行うべきです。

7. プロジェクトアドレス

https://github.com/Tencent-Hunyuan/HY-Motion-1.0

8. よくある質問

Q: HY-Motion 1.0をインストールした後にlocal_infer.pyを実行する際のduration_estや書き換えに関するエラーにはどう対処すればいいですか?

A: プロンプトオーバーライド/持続時間予測モジュールのサービスアドレスやローカル重みを設定していない場合は、推論パラメータの対応機能(duration_est無効化や書き換えなど)をオフにするか、リポジトリの指示に従ってモジュールを正しく設定する必要があります。

Q: HY-Motion-1.0とHY-Motion-1.0-Liteのどちらを選ぶべきですか?

A: より高いアクション品質と強力な命令追随を追求し、十分な計算能力を持つ場合は標準版を選ぶこと; リソースフットプリントを減らしたり、反復を速くしたい場合は、まずLiteを使い、その後Standard Editionでキーフラグメントを複製しましょう。

Q: HY-Motion 1.0の出力はBlender/UE/Unityのアニメーションパイプラインとどのように接続されていますか?

A: 通常の手順は、生成されたスケルトンアクションをツールチェーンで読みやすい形式にエクスポート・変換し、ボーンをターゲットキャラクターリグにリダイレクトし、IK、ソールロック、カーブスムージングなどの後処理を行います。異なるプロジェクトフレームワークの標準は異なり、安定したリダイレクトテンプレートを確立する必要があります。

Q: HY-Motion 1.0は「小道具/マルチプレイヤー/複雑なシーンを伴うアクション」に適していますか?

A: 主にシングルプレイヤーの3D人間動作生成を目的としています。複雑な相互作用は、より強力な条件付き入力、後処理、または専門的なデータサポートを必要とすることが多いため、小規模な検証を行い、手動修正に備えることが推奨されます。