Step-Audio-R1.1は、ディープ推論とリアルタイムの両方を考慮したスピーチ推論ランキングで優勝しています

AI情報 • Admin • 2026/1/16 • 83 回閲覧

Step-Audio-R1.1が発表され、Artificial Analysisの音声推論リストで1位にランクされました。 BigBench Audioテストでは約96.4%の精度を達成し、リアルタイムの会話シーンでは約1.51秒の初フレーム音声出力を達成しました。プロジェクトチームは、このモデルが実際の音声会話に近いシナリオにおいて、深い推論とインタラクションレイテンシのバランスを取っていることを強調しました。

公式導入によると、R1.1は推論段階で「テスト中の計算能力のスケーリング」を導入し、オーディオタスク最適化のためのエンドツーエンドオーディオ推論とスケーラブルなCoTを強化しています。モデルの重みはオープンで、コミュニティプラットフォームから直接ダウンロードできます。同時に、オンライン体験の入場も提供しています。リスト評価方法とデバイスネットワークの違いは実際の性能に影響を与える可能性があり、具体的な効果はアプリケーションシナリオや展開条件によって異なります。

よくある質問

Q: Step-Audio-R1.1とは何ですか?

A: Step-Audio-R1.1は、深い推論と低遅延を重視した大規模な音声ダイアログモデルです。

Q: Step-Audio-R1.1の成果は何ですか?

A: 公開されている結果には、BigBench Audioの約96.4%の精度と約1.51秒のTTFAが含まれており、関連リストで1位にランクされています。

Q: Step-Audio-R1.1の技術的特徴は何ですか?

A: このモデルは、スケールオンテストの計算能力スケーリング、エンドツーエンドのオーディオ推論、そしてスケーラブルなオーディオ指向のCoTを使用しています。

Q: Step-Audio-R1.1はオープンソースですか?

A: 重りやリソースは一般公開されており、地域のコミュニティプラットフォームでもローカル展開が可能です。

Q: Step-Audio-R1.1はどこで試せますか?

A: オンラインデモページで体験することもできますし、プラットフォームのページでウェイトをダウンロードして自分でプレイすることもできます。

Step-Audio-R1.1は、ディープ推論とリアルタイムの両方を考慮したスピーチ推論ランキングで優勝しています

関連記事

Google DeepMindは、55言語をサポートするオープンソース翻訳モデル群であるTranslateGemmaをリリースしました

OpenAIはChatGPT広告のテストを発表しました。無料版とGoサブスクリプションをカバーし、PlusとProは広告なしで対応しています

Kimi K3公式発表:2.8兆のパラメータが数百万のコンテキストとオープンウェイトに賭けられます

Mistral Studioがプロンプトバージョン管理を追加:エンタープライズAIが行動資産を管理しています

おすすめツール

Step-Audio-R1.1は、ディープ推論とリアルタイムの両方を考慮したスピーチ推論ランキングで優勝しています

関連記事

Google DeepMindは、55言語をサポートするオープンソース翻訳モデル群であるTranslateGemmaをリリースしました

OpenAIはChatGPT広告のテストを発表しました。無料版とGoサブスクリプションをカバーし、PlusとProは広告なしで対応しています

Kimi K3公式発表:2.8兆のパラメータが数百万のコンテキストとオープンウェイトに賭けられます

Mistral Studioがプロンプトバージョン管理を追加:エンタープライズAIが行動資産を管理しています

おすすめツール

AIツールを投稿

投稿情報を確認してください