Zhipu AIはオープンソースのSOTAを実現するためにGLM-TTSの2段階生成強化学習をリリースしました

AI情報 • Admin • 2025/12/11 • 153 回閲覧

Zhipu AIは正式にローンチされ、産業用音声合成システムGLM-TTSをオープンソース化しました。このシステムは約3秒間の音声サンプルを通じて話者の音色や話し方を学習し、一般読書、感情吹き替え、教育評価、電子書籍、音声カスタマーサービスなどの状況で、実際の人に近い自然で滑らかな音声を生成することで、適切なシーンでリアルで感情的に適切な声を出力することを目指します。

技術的には、GLM-TTSは2段階生成アーキテクチャを採用し、訓練においてGRPOベースの強化学習スキームを導入し、文字誤り率や感情表現などの公開評価においてオープンソースのSOTA性能を達成しています。このモデルは約10万時間のトレーニングデータだけで業界をリードする発音精度と音色復元を実現でき、事前トレーニング、高品質なティンブルLORA、強化学習トレーニングは1台のマシン上で数日で完了できるため、トレーニングコストや閾値を大幅に削減できます。

応用と生態の面で、GLM-TTSは教育、電子書籍、インテリジェントなカスタマーサービスなどの典型的なシナリオでの実装効果を検証しています。多音節単語、希少文字、記号の標準発音をサポートし、多文字・多感情の読み解きをサポートし、顧客サービスの声では抑制されたプロフェッショナルなトーンを維持しています。同時に、このプロジェクトは多くのコミュニティでApacheプロトコルを用いてオープンソース化されており、オープンプラットフォーム、API、オンライン体験ポータルを提供しているため、開発者や企業がデモから本番環境への迅速な移行が便利です。

FAQ

Q: GLM-TTSシステムの主な機能と応用シナリオは何ですか?

A: GLM-TTSシステムは、話者の音色を3秒間で複製する機能をサポートしており、一般読書、感情吹き替え、教育評価、電子書籍、音声カスタマーサービスなど、人間の声をシミュレートする必要がある場面に適しています。

Q: GLM-TTSシステムの技術的ルートや効果の際、際立った特徴は何ですか?

A: GLM-TTSシステムは2段階生成とGRPOベースの強化学習を採用しており、文字誤り率と感情表現評価においてオープンソースのSOTAを実現しつつ、高い音色復元と安定性を考慮しています。

Q: GLM-TTSシステムを利用するために開発者はどれくらいのトレーニングや展開コストが必要ですか?

A: 開発者はGLM-TTSシステムを使うことで約10万時間のデータを利用してトレーニングを完了でき、事前トレーニング、高品質な音声LORA、強化学習トレーニングは1台のマシンで数日で完了でき、展開コストも比較的低く抑えられます。

Q: エンタープライズユーザーはどのようにしてGLM-TTSシステムにオンラインサービスにアクセスできますか?

A: エンタープライズユーザーは、オープンプラットフォームやAPIドキュメントを通じてGLM-TTSのテキスト読み上げおよびティンブレレプリケーション機能を呼び出し、ビジネス規模に応じて請求やQPSを設定し、試験段階から本番レベルの大規模通話へと段階的に拡大できます。

Q: 一般ユーザーはGLM-TTSシステムの合成効果をオンラインでどのように体験できますか?

A: 一般ユーザーは audio.z.ai や知浦青炎などのポータルを通じてテキストや短い音声プロンプトをアップロードし、多文体読解や独占的な音色クローンの実際の効果を体験できます。

Zhipu AIはオープンソースのSOTAを実現するためにGLM-TTSの2段階生成強化学習をリリースしました

関連記事

テンセントは、大型モデルブランドの名称をテンセント・フンユアンからテンセントHYに変更すると発表しました

GLM-TTSは完全オープンソースで、感情を制御可能な工業グレードの音声合成による3秒間のボイスクローン化を実現しています

Kimi K3公式発表:2.8兆のパラメータが数百万のコンテキストとオープンウェイトに賭けられます

Mistral Studioがプロンプトバージョン管理を追加:エンタープライズAIが行動資産を管理しています

おすすめツール

Zhipu AIはオープンソースのSOTAを実現するためにGLM-TTSの2段階生成強化学習をリリースしました

関連記事

テンセントは、大型モデルブランドの名称をテンセント・フンユアンからテンセントHYに変更すると発表しました

GLM-TTSは完全オープンソースで、感情を制御可能な工業グレードの音声合成による3秒間のボイスクローン化を実現しています

Kimi K3公式発表:2.8兆のパラメータが数百万のコンテキストとオープンウェイトに賭けられます

Mistral Studioがプロンプトバージョン管理を追加:エンタープライズAIが行動資産を管理しています

おすすめツール

AIツールを投稿

投稿情報を確認してください