Zhipu AIは正式にローンチされ、産業用音声合成システムGLM-TTSをオープンソース化しました。 このシステムは約3秒間の音声サンプルを通じて話者の音色や話し方を学習し、一般読書、感情吹き替え、教育評価、電子書籍、音声カスタマーサービスなどの状況で、実際の人に近い自然で滑らかな音声を生成することで、適切なシーンでリアルで感情的に適切な声を出力することを目指します。
技術的には、GLM-TTSは2段階生成アーキテクチャを採用し、訓練においてGRPOベースの強化学習スキームを導入し、文字誤り率や感情表現などの公開評価においてオープンソースのSOTA性能を達成しています。 このモデルは約10万時間のトレーニングデータだけで業界をリードする発音精度と音色復元を実現でき、事前トレーニング、高品質なティンブルLORA、強化学習トレーニングは1台のマシン上で数日で完了できるため、トレーニングコストや閾値を大幅に削減できます。
応用と生態の面で、GLM-TTSは教育、電子書籍、インテリジェントなカスタマーサービスなどの典型的なシナリオでの実装効果を検証しています。多音節単語、希少文字、記号の標準発音をサポートし、多文字・多感情の読み解きをサポートし、顧客サービスの声では抑制されたプロフェッショナルなトーンを維持しています。 同時に、このプロジェクトは多くのコミュニティでApacheプロトコルを用いてオープンソース化されており、オープンプラットフォーム、API、オンライン体験ポータルを提供しているため、開発者や企業がデモから本番環境への迅速な移行が便利です。
FAQ
Q: GLM-TTSシステムの主な機能と応用シナリオは何ですか?
A: GLM-TTSシステムは、話者の音色を3秒間で複製する機能をサポートしており、一般読書、感情吹き替え、教育評価、電子書籍、音声カスタマーサービスなど、人間の声をシミュレートする必要がある場面に適しています。
Q: GLM-TTSシステムの技術的ルートや効果の際、際立った特徴は何ですか?
A: GLM-TTSシステムは2段階生成とGRPOベースの強化学習を採用しており、文字誤り率と感情表現評価においてオープンソースのSOTAを実現しつつ、高い音色復元と安定性を考慮しています。
Q: GLM-TTSシステムを利用するために開発者はどれくらいのトレーニングや展開コストが必要ですか?
A: 開発者はGLM-TTSシステムを使うことで約10万時間のデータを利用してトレーニングを完了でき、事前トレーニング、高品質な音声LORA、強化学習トレーニングは1台のマシンで数日で完了でき、展開コストも比較的低く抑えられます。
Q: エンタープライズユーザーはどのようにしてGLM-TTSシステムにオンラインサービスにアクセスできますか?
A: エンタープライズユーザーは、オープンプラットフォームやAPIドキュメントを通じてGLM-TTSのテキスト読み上げおよびティンブレレプリケーション機能を呼び出し、ビジネス規模に応じて請求やQPSを設定し、試験段階から本番レベルの大規模通話へと段階的に拡大できます。
Q: 一般ユーザーはGLM-TTSシステムの合成効果をオンラインでどのように体験できますか?
A: 一般ユーザーは audio.z.ai や知浦青炎などのポータルを通じてテキストや短い音声プロンプトをアップロードし、多文体読解や独占的な音色クローンの実際の効果を体験できます。