Wan 2.5では、プレビュー版に「ネイティブオーディオ駆動型ビデオ生成」機能が追加されました。ユーザーは、テキストプロンプトや参照画像と組み合わせて、音声を制御信号として直接提供することで、テキストからビデオ、または画像からビデオを生成するタスクを実行できます。公式説明ではオーディオとビデオの同期機能が強調されており、プレビューフェーズでは1080p、24fpsの出力仕様が採用されています。ビデオの最大長は、選択したモデルとインターフェースパラメータに応じて5秒または10秒です。このアップデートは、ナレーション、音楽、または環境音によってショットのリズムと物語の方向性を決定できるようにすることで、より一貫性のある短編映画の生成を実現することを目指しています。
Alibaba Cloud Bailianとその製品ウェブサイトでは、Wan 2.5の「Video with Sound」プレビューは自動ダビングやカスタムオーディオファイル入力に対応しており、広告、eコマースのデモ、クリエイティブな短編映画などのシナリオに適しているとされています。プレビュー段階であるため、機能と可用性はプラットフォームや地域を段階的に拡大していく可能性があり、具体的なパフォーマンスは映像と下流のプロセスと連動して検証する必要があります。また、サードパーティの評価によると、ポートレートやモーションの安定性においてパフォーマンスにまだばらつきがあるため、プロジェクトごとに小規模なサンプルテスト映像での評価が推奨されています。
よくある質問
Q: オーディオは生成にどのように関係していますか?
A: 音声を駆動信号としてアップロードし、それをテキストプロンプトや参照画像と組み合わせて、ショットのリズム、感情、リップシンクをガイドすることができます。
Q: どのような長さと仕様がサポートされていますか?
A: プレビュー インターフェイスには、5 秒と 10 秒の 2 つの設定があり、24fps に固定され、最大 1080p で、MP4 (H.264) にエクスポートできます。
Q: どの入口が利用可能ですか?
A: Tongyi Wanxiang/Wan 製品ページと Alibaba Cloud Bailian API には、オーディオ機能とパラメータの説明が付いたプレビュー モデルがリストされています。
Q: 安定性はどうですか?
A: 公式デモではオーディオとビデオの同期が可能であることが示されていますが、サードパーティの評価では、ポートレートとモーションの一貫性はまだ変動しており、シーンに応じてテストする必要があると言われています。
Q: 商用および地域的な可用性はどうですか?
A: これはプレビュー機能です。有効化の範囲と条件は各プラットフォームのプラットフォームページとアカウント権限によって異なり、地域によって段階的に拡大される可能性があります。