戻るAIはオープンソースです
HY-Motion 1.0 オープンソース分析:テンセントのHunyuan 10億パラメータDiT文生アクションモデルの入門ガイド

HY-Motion 1.0 オープンソース分析:テンセントのHunyuan 10億パラメータDiT文生アクションモデルの入門ガイド

AIはオープンソースです Admin 287 回閲覧

1. 要旨

HY-Motion 1.0は、騰訊の混沌源によるテキストからモーションへのモデルのシリーズで、拡散トランスフォーマー(DiT)とフローマッチングを基に、自然言語記述に基づく骨格駆動の3Dキャラクターアニメーションシーケンスを生成するため、これらは一般的なDCCやエンジンのアニメーションパイプラインと連携してリダイレクトやアセット化が可能です。 このプロジェクトは標準版(約1.0Bパラメータ)と軽量版(約0.46Bパラメータ)の両方を提供し、「事前学習済み→高品質な微調整→強化学習」の完全なリンクを用いて、意味の整合性や物理的な自然さを向上させる訓練に活用しています。

2. コア機能

1. 10億スケールDiT + フローマッチング:DiTスタイルのフローマッチング生成フレームワークを10億パラメータに拡張し、より強力な命令理解とアクション品質を目指します。

2. 全段階でのクローズドループトレーニング:大規模な事前学習は一般的な行動事前学習を行い、その後高品質なデータで詳細と滑らかさを微調整し、最後に人間のフィードバックや報酬モデルに関連する強化学習を通じてテキストの意味論と行動の自然さをさらに整合させます。

3. 豊富なカテゴリカバレッジ:データパイプラインのクリーンアップと注釈付け後、6つのカテゴリと200+アクションカテゴリをカバーし、より「使いやすい」アクションライブラリを簡単に構築できます。

4. 工学的推論とオプションのプロンプト強化:ローカルバッチ推論スクリプトとGradioインターフェースの提供; また、オプションの「Duration Prediction and Prompt Rewriting」モジュールもサポートしています(有効にしていない場合は、関連するパラメータを明示的にオフにする必要があります)。

3. 設置

  1. PyTorchをインストールします(公式ガイドラインに従ってCUDA/CPUバージョンを選択してください)。

2. コードをプルし依存関係をインストール:リポジトリgit clone後、ディレクトリ内のpip install -r requirements.txtを実行します。

3. 重みのダウンロード:リポジトリの指示に従って、モデルの重みを指定されたディレクトリ(標準版またはLite版)に配置ckpts/README.md

4. 推論を実行する:ローカルバッチ生成にlocal_infer.pyを使用(--model_pathで対応する重みディレクトリを指してください)。

5. 可視化開始:gradio_app.pyを実行してローカルウェブインターフェースを開き、インタラクティブなプレビューとテストを行います。

4. 典型的なユースケース

  1. ゲームおよびアニメーションのプレハブ化:自然言語を使ってアクションドラフトを素早く生成し、ストーリーボードからアクションライブラリへの反復サイクルを短縮します。
  2. デジタル人間/バーチャルアンカーアクションライブラリ:スタイル、リズム、感情のコマンドに応じて一括で資料を生成し、骨の方向性転換とクリーニングを統一的に行う。
  3. DCC/Engine パイプラインアクセス:生成されたスケルトンアクションをBlender/MayaやUnity/Unrealにインポートし、IK、リダイレクト、カーブ編集で再利用可能なアセットとして実装します。
  4. データ強化および検索支援:アクションジェネレーターとして、ロングテールアクション記述のカバー範囲を拡大したり、「テキストアクション」アラインメントのための検索および注釈プロセスを構築するために使われます(手動のランダム検査が必要です)。

5. 生態系と競合製品

  1. 生態学的配置:HY-Motion 1.0は「テキスト→3D人間の動き」リンクに向けられており、SMPL/SMPLH関連の人間表現、DCCツールチェーン、プロンプトエンジニアリングモジュールと組み合わせて「生産可能な」アクションアセットプロセスを形成できます。
  2. オープンソースの競合他社の参考文献:MDM(Human Motion Diffusion Model)、T2M-GPT、初期のテキスト・トゥ・モーションベースライン、HumanML3Dデータ/ベンチマークがコミュニティで広く利用されています。 HY-Motion 1.0の主な違いは1Bスケールとより完全なトレーニングクローズドループです。 それでも、迅速な配分、キャラクターの骨格、ランディングパイプラインに基づいて実際の利点と欠点を比較・評価することが推奨されます。

6. 制限事項と注意事項

  1. 計算能力とレイテンシ:10億パラメータ推論はビデオメモリとスループットにより高い要求を持ち、リソース制約のシナリオではLite版を優先することがあります。
  2. スケルトンとキャラクターの違い:生成されるのはスケルトン駆動のアクションであり、特定のキャラクターに着地するには通常、方向変更、骨の長さ適応、足底のスライドステップ補正、そして間隔補正が必要です。
  3. プロンプト書き換え/持続時間予測依存性:該当モジュールが有効の場合、利用可能なサービスアドレスまたはローカルモデルを設定する必要があります。 それ以外の場合は、エラーを避けるために対応するパラメータをオフにする必要があります。
  4. カテゴリおよびデータバイアス:200+クラスカバレッジは「どの記述も安定している」という意味ではなく、複雑な相互作用、小道具、複数人などのシナリオは追加の制約や後処理を必要とする場合があります。
  5. ライセンスおよびコンプライアンス:重みやコードは特定のコミュニティによってライセンスされており、商業化や配布前に用語を慎重に確認し、生成されたコンテンツに対して著作権およびセキュリティレビューを行うべきです。

7. プロジェクトアドレス

https://github.com/Tencent-Hunyuan/HY-Motion-1.0

8. よくある質問

Q: HY-Motion 1.0をインストールした後にlocal_infer.pyを実行する際のduration_estや書き換えに関するエラーにはどう対処すればいいですか?

A: プロンプトオーバーライド/持続時間予測モジュールのサービスアドレスやローカル重みを設定していない場合は、推論パラメータの対応機能(duration_est無効化や書き換えなど)をオフにするか、リポジトリの指示に従ってモジュールを正しく設定する必要があります。

Q: HY-Motion-1.0とHY-Motion-1.0-Liteのどちらを選ぶべきですか?

A: より高いアクション品質と強力な命令追随を追求し、十分な計算能力を持つ場合は標準版を選ぶこと; リソースフットプリントを減らしたり、反復を速くしたい場合は、まずLiteを使い、その後Standard Editionでキーフラグメントを複製しましょう。

Q: HY-Motion 1.0の出力はBlender/UE/Unityのアニメーションパイプラインとどのように接続されていますか?

A: 通常の手順は、生成されたスケルトンアクションをツールチェーンで読みやすい形式にエクスポート・変換し、ボーンをターゲットキャラクターリグにリダイレクトし、IK、ソールロック、カーブスムージングなどの後処理を行います。 異なるプロジェクトフレームワークの標準は異なり、安定したリダイレクトテンプレートを確立する必要があります。

Q: HY-Motion 1.0は「小道具/マルチプレイヤー/複雑なシーンを伴うアクション」に適していますか?

A: 主にシングルプレイヤーの3D人間動作生成を目的としています。 複雑な相互作用は、より強力な条件付き入力、後処理、または専門的なデータサポートを必要とすることが多いため、小規模な検証を行い、手動修正に備えることが推奨されます。

HY-Motion 1.0 オープンソースのテキストから3Dへのモーション生成モデル解析 テンセント・フンユアンHY-Motion 1.0パラメータスケールとクローズドループトレーニングの詳細な説明 DiTとフローマッチングに基づくテキスト駆動型の人間の動き生成 HY-Motion 1.0 スタンダード版とライト版の選択および比較ガイド 自然言語から骨格アニメーションまで、HY-Motion 1.0はパノラマビューを適用します HY-Motion 1.0 事前トレーニング、微調整強化学習、三段階トレーニング解釈 HY-Motion 1.0は、データパイプラインのハイライトの200+アクションカテゴリーをカバーしています HY-Motion 1.0 推論スクリプトとGradio可視化チュートリアル HY-Motion 1.0のゲーム内アニメーションプレハブでモーションを素早く生成する方法 デジタルヒューマンアクションライブラリは、HY-Motion 1.0の実用的なソリューションをバッチで生成します HY-Motion 1.0はBlenderアニメーションパイプラインの実装プロセスに統合されています HY-Motion 1.0がMayaリダイレクト&カーブ最適化ガイドにアクセスする HY-Motion 1.0はUnityアニメーションアセット化の全パスに接続しています HY-Motion 1.0はUnrealエンジンのリダイレクトやIKトリックに接続されています HY-Motion 1.0とMDMおよび他のオープンソース競合製品の比較と評価ポイント HY-Motion 1.0とT2M-GPTの違いおよび選択提案 HY-Motion 1.0とHumanML3Dベンチマークの関係と参照 HY-Motion 1.0 モーション品質向上のための工学的推論戦略 HY-Motion 1.0で本番対応のモーションアセットフローを構築する方法 HY-Motion 1.0スケルトンドライブ出力のリダイレクトの考慮事項 HY-Motion 1.0 補正および間隔補正正規法 HY-Motion 1.0 計算能力要件と推論遅延最適化の提案 資源制約のあるシナリオでは、HY-Motion 1.0 Lite戦略が推奨されます HY-Motion 1.0 プロンプト書き換えと持続時間予測モジュール構成ガイド local_infer誤ったHY-Motion 1.0の解duration_est報告しました HY-Motion 1.0はリライトやパラメータduration_estの操作をオフにします HY-Motion 1.0 依存関係付きPyTorchのインストール手順 HY-Motion 1.0 重量ダウンロードおよびckptsディレクトリ配置手順 HY-Motion 1.0 ローカルでのアクションのバッチ生成のためのコマンドライン例 HY-Motion 1.0 Gradioインターフェースのインタラクティブプレビューとテストのヒント HY-Motion 1.0アクションカテゴリカバレッジおよびロングテールデータ強化スキーム HY-Motion 1.0はテキストアクションの取得と注釈に使用されます HY-Motion 1.0 単一人物モーション生成のための能力境界仕様 HY-Motion 1.0 マルチプレイヤーインタラクションおよび小道具アクションの制限と代替案 HY-Motion 1.0の制約と複雑なシーンアクション生成のためのポストプロセッシングのアイデア HY-Motion 1.0 ライセンスおよび商業コンプライアンスチェックリスト HY-Motion 1.0はコンテンツ著作権および安全性審査の推奨事項を生成します HY-Motion 1.0 アクションセマンティックアラインメントがRLHFの重要ポイントを改善する HY-Motion 1.0の高品質ファインチューニングデータが滑らかさを向上させる方法 HY-Motion 1.0 運動の自然性と物理的合理性の評価方法 HY-Motion 1.0とDCCツールチェーンの組み合わせの生態学的立場の解釈 HY-Motion 1.0は、アクションライブラリのカテゴリシステムと管理手法を構築します HY-Motion 1.0 プロンプト作成とリズミカルな感情コントロールスキル HY-Motion 1.0 エンジニアリング推論バッチ処理とログデバッグ戦略 HY-Motion 1.0 スタンダードエディション1Bモデルおよび0.46B Lite性能分析 ゲーム開発におけるHY-Motion 1.0の反復的効率向上のためのケースアイデア HY-Motion 1.0は、ストーリーボードからアクションライブラリまでのワークフロー設計を自動化します HY-Motion 1.0 骨長適応およびリダイレクションテンプレート確立ガイド HY-Motion 1.0のプロジェクトアドレスやオープンソースリソースが迅速にインデックス化されます

関連記事

騰訊渾源 騰訊-HY-MT1.5オープンソース:1.8Bエンドサイド翻訳と7Bクラウド協働実用解釈

騰訊渾源 騰訊-HY-MT1.5オープンソース:1.8Bエンドサイド翻訳と7Bクラウド協働実用解釈

1. 要旨 Tencent-HY-MT1.5(HY-MT)は、Tencentのオープンソースの機械翻訳モデルスイートであり、1.8B(部分的側面/低リソース)と7B(部分的クラウド/高品質)の2つのス...

Qwen-Image-2512 オープンソースリリース:よりリアルなポートレート、より詳細な自然テクスチャ、そしてより強力なテキストレンダリング

Qwen-Image-2512 オープンソースリリース:よりリアルなポートレート、より詳細な自然テクスチャ、そしてより強力なテキストレンダリング

1. 要旨 Qwen-Image-2512は、Qwen-Imageのテキスト-イメージベースモデルの12月版アップデートであり、「ネイティブテキスト生成/複雑なタイポグラフィ」の位置づけを継続し、より...

Mem0はエージェントと統合する価値がありますか? 長期記憶は役立ちますが、境界線を管理する必要があります

Mem0はエージェントと統合する価値がありますか? 長期記憶は役立ちますが、境界線を管理する必要があります

Mem0は、AIアプリケーションやエージェント向けのオープンソースメモリ層プロジェクトで、アプリのユーザーの好み、歴史的事実、長期的な文脈を記憶するのを支援することを目的としています。 パーソナライズ...

ヘイスタックはどのようなチームに適しているのでしょうか? むしろコンポジタブルなRAGエンジニアリングフレームワークのようなものです

ヘイスタックはどのようなチームに適しているのでしょうか? むしろコンポジタブルなRAGエンジニアリングフレームワークのようなものです

HaystackはDeepSetが保守するオープンソースのAIアプリケーションフレームワークで、RAG構築、ドキュメントQ&A、検索パイプライン、LLMワークフローの構築に一般的に使用されています。 ...

おすすめツール

もっと見る