AIはオープンソースです - Page 11 - AIツールナビゲーション

AI情報 AI百科事典 AIレコメンデーション AIコンプライアンス AIはオープンソースです AIプロンプト AIニュースブリーフィング AI Q&A(英語) AIハードウェア

オープンソース音声ソリューションの比較:Fun-CosyVoice3と一般的なTTS、Fun-ASR-nanoと主流のASRの比較

1. 要約アリババ通義ボイスチーム(FunAudioLLM)は、音声合成用のFun-CosyVoice3-0.5B-2512(TTS)と音声認識用のFun-ASR-Nano-2512(ASR)という2種類のオーディオモデルをオープンソース化しています。前者は多言語のゼロショット音声クローンと低遅...

Admin • 2025/12/15

619

GLM-TTSは完全オープンソースで、感情を制御可能な工業グレードの音声合成による3秒間のボイスクローン化を実現しています

1. 抽象 GLM-TTSは、産業用音声生成のためのオープンソースTTSシステムであり、音声サンプルの音色クローン作成をわずか3秒で行い、感情表現を制御可能です。そのアーキテクチャは2段階の生成プロセスを採用し、文字誤り率(CER)とセンチメントの面でオープンソースとしてトップレベルのレベルを実現...

Admin • 2025/12/11

176

Zhipu AI オープンソース Open-AutoGLM および AutoGLM-Phone-9B:モバイルエージェントの新たな出発点

1. 抽象的 Open-AutoGLMはZhipu AI向けのオープンソースの携帯電話エージェントフレームワークであり、コアモデルはAutoGLM-Phone-9Bです。携帯電話の画面内容を理解し、実際のユーザーの操作をシミュレートして「インターフェースの理解、指示の理解、携帯電話のクリック」を...

Admin • 2025/12/9

538

LongCat-Imageオープンソース解析:6B DiTが20B+ MoEレベルの中国語・英語バイリンガル画像間モデルを達成

1. Abstract LongCat-Imageは、MeituanのLongCatチームによる中国語と英語のオープンソースのバイリンガル画像生成・編集モデルで、パラメータは約6B、ハイブリッドDiTアーキテクチャを採用しています。これは多くの公開ベンチマークで20Bレベルのオープンソースモデルと同...

Admin • 2025/12/6

253

Mistral 3 オープンソースモデルファミリー:マルチモーダル、多言語、オンプレミス展開のための新たな選択肢

1. Abstract Mistral 3は、Mistral AIが導入した新世代のオープンソースモデルファミリーで、スパースエキスパートアーキテクチャのMistral Large 3や、ローカルおよびエッジシナリオ向けのMinistral 3シリーズ(3B/8B/14B)を含みます。すべてのウェ...

Admin • 2025/12/3

215

DeepSeek-V3.2リリース:効率的な推論と汎用エージェント機能、注意を最小限に抑える

1. Abstract DeepSeek-V3.2は、V3.2-Expを基にした公式リリース版で、推論効率と出力長の最適化、DSAのスパースアテンションメカニズムを用いて長期コンテキスト性能の向上に重点を置いています。 DeepSeek-V3.2-Specialeは、極限の数学的推論、プログラミング...

Admin • 2025/12/1

237

オープンソース音声ソリューションの比較:Fun-CosyVoice3と一般的なTTS、Fun-ASR-nanoと主流のASRの比較

GLM-TTSは完全オープンソースで、感情を制御可能な工業グレードの音声合成による3秒間のボイスクローン化を実現しています

Zhipu AI オープンソース Open-AutoGLM および AutoGLM-Phone-9B:モバイルエージェントの新たな出発点

LongCat-Imageオープンソース解析:6B DiTが20B+ MoEレベルの中国語・英語バイリンガル画像間モデルを達成

Mistral 3 オープンソースモデルファミリー:マルチモーダル、多言語、オンプレミス展開のための新たな選択肢

DeepSeek-V3.2リリース:効率的な推論と汎用エージェント機能、注意を最小限に抑える

おすすめツール

AIツールを投稿

投稿情報を確認してください