AIはオープンソースです - Page 10 - AIツールナビゲーション

AI情報 AI百科事典 AIレコメンデーション AIコンプライアンス AIはオープンソースです AIプロンプト AIニュースブリーフィング AI Q&A(英語) AIハードウェア

Qwen画像層式オープンソース解釈:「ネイティブレイヤー」モデルで、グラフを編集可能なRGBAレイヤーに分解します

1. 要旨 Qwen-Image-Layeredは、Qwenチームによるオープンソースの画像「レイヤリング」モデルで、通常のRGB画像を物理的に分離した複数のRGBAレイヤーを出力します。一般的な「同じ平面マップ上での編集」とは異なり、メインボディと構造を独立したレイヤーに分解し、ヘビーシェーディ...

Admin • 2025/12/20

301

MiniMaxオープンソースVTP:スケーラブルな事前学習により、Visual TokenizerはDiT生成の品質を直接向上させることができます

1. Abstract VTP(Visual Tokenizer Pre-training)は、MiniMax(Hailuo)チームによって開発されたオープンソースのビジュアルトークナイザー事前学習フレームワークで、拡散モデルや拡散トランスフォーマー(DiT)などの次世代生成モデルを対象としています...

Admin • 2025/12/19

107

PE-AV(Perception Encoder Audiovisual) オープンソース解釈:SAM Audioを駆動する音声分離エンジン

- Abstract PE-AV(Perception Encoder Audiovisual)は、Metaのオープンソースのオーディオビジュアル共同エンコーダファミリーであり、Perception Encoderをベースにネイティブオーディオ機能を追加し、映像、音声、音声およびテキスト表現を統一さ...

Admin • 2025/12/19

HY World 1.5(WorldPlay)オープンソースリリース:ライブストリーミング動画拡散のためのインタラクティブなワールドモデル

1. 抽象 HY World 1.5(WorldPlay)は、騰訊のHunyuanチームによって開発されたオープンソースのリアルタイム世界モデルフレームワークで、ストリーミング生成をサポートする動画拡散モデルを核としています。このシステムはテキストや画像入力に基づいてリアルタイムでインタラクティブ...

Admin • 2025/12/17

258

MiMo-V2-フラッシュオープンソース解釈:309B MoE、15B 活性化パラメータ、256Kロングコンテキスト

1. Abstract MiMo-V2-Flashは、Xiaomi MiMoチームによるオープンソースのハイブリッドエキスパート(MoE)大規模言語モデルで、推論中の総パラメータは約309B、活性化パラメータは約15Bで、推論、プログラミング、エージェントワークフローのバランスを低コストで行うことに...

Admin • 2025/12/17

361

LongCat-Video-Avatar オープンソース解釈:オーディオ駆動のロングビデオアバター生成をより安定かつリアルにする方法

1. Abstract LongCat-Video-Avatarは、LongCat-Videoアーキテクチャに基づく音声駆動型アバター(仮想人間)ビデオ生成モデルで、「長時間のシーケンス、強い一貫性、リアルかつ動的な」シナリオに適しています。ネイティブに音声テキストからビデオ(AT2V)、音声テキ...

Admin • 2025/12/17

231

Qwen画像層式オープンソース解釈:「ネイティブレイヤー」モデルで、グラフを編集可能なRGBAレイヤーに分解します

MiniMaxオープンソースVTP:スケーラブルな事前学習により、Visual TokenizerはDiT生成の品質を直接向上させることができます

PE-AV(Perception Encoder Audiovisual) オープンソース解釈:SAM Audioを駆動する音声分離エンジン

HY World 1.5(WorldPlay)オープンソースリリース:ライブストリーミング動画拡散のためのインタラクティブなワールドモデル

MiMo-V2-フラッシュオープンソース解釈:309B MoE、15B 活性化パラメータ、256Kロングコンテキスト

LongCat-Video-Avatar オープンソース解釈:オーディオ駆動のロングビデオアバター生成をより安定かつリアルにする方法

おすすめツール

AIツールを投稿

投稿情報を確認してください