GLM-TTSは完全オープンソースで、感情を制御可能な工業グレードの音声合成による3秒間のボイスクローン化を実現しています

GLM-TTSは完全オープンソースで、感情を制御可能な工業グレードの音声合成による3秒間のボイスクローン化を実現しています

1. 抽象 GLM-TTSは、産業用音声生成のためのオープンソースTTSシステムであり、音声サンプルの音色クローン作成をわずか3秒で行い、感情表現を制御可能です。 そのアーキテクチャは2段階の生成プロセスを採用し、文字誤り率(CER)とセンチメントの面でオープンソースとしてトップレベルのレベルを実現...

Admin
153
Zhipu AI オープンソース Open-AutoGLM および AutoGLM-Phone-9B:モバイルエージェントの新たな出発点

Zhipu AI オープンソース Open-AutoGLM および AutoGLM-Phone-9B:モバイルエージェントの新たな出発点

1. 抽象 的 Open-AutoGLMはZhipu AI向けのオープンソースの携帯電話エージェントフレームワークであり、コアモデルはAutoGLM-Phone-9Bです。 携帯電話の画面内容を理解し、実際のユーザーの操作をシミュレートして「インターフェースの理解、指示の理解、携帯電話のクリック」を...

Admin
462
LongCat-Imageオープンソース解析:6B DiTが20B+ MoEレベルの中国語・英語バイリンガル画像間モデルを達成

LongCat-Imageオープンソース解析:6B DiTが20B+ MoEレベルの中国語・英語バイリンガル画像間モデルを達成

1. Abstract LongCat-Imageは、MeituanのLongCatチームによる中国語と英語のオープンソースのバイリンガル画像生成・編集モデルで、パラメータは約6B、ハイブリッドDiTアーキテクチャを採用しています。これは多くの公開ベンチマークで20Bレベルのオープンソースモデルと同...

Admin
225

おすすめツール

もっと見る