Step-Audio-R1.1は、ディープ推論とリアルタイムの両方を考慮したスピーチ推論ランキングで優勝しています
Step-Audio-R1.1が発表され、Artificial Analysisの音声推論リストで1位にランクされました。 BigBench Audioテストでは約96.4%の精度を達成し、リアルタイムの会話シーンでは約1.51秒の初フレーム音声出力を達成しました。 プロジェクトチームは、このモデル...
Step-Audio-R1.1が発表され、Artificial Analysisの音声推論リストで1位にランクされました。 BigBench Audioテストでは約96.4%の精度を達成し、リアルタイムの会話シーンでは約1.51秒の初フレーム音声出力を達成しました。 プロジェクトチームは、このモデル...
Google DeepMindは、55言語に対応し、4B、12B、27Bの3つのパラメータスケールを提供するオープンソースの機械翻訳モデル群であるTranslateGemmaのローンチを発表しました。 公式紹介によると、これらのモデルはGemma 3アーキテクチャに基づいており、モバイルフォン、ノー...
OpenAI開発者コミュニティの投稿ではOpen Responsesを紹介します。これはOpenAI Responses APIに触発されたオープンソース仕様とエコシステムのセットで、複数のプロバイダーの相互運用可能な大規模言語モデルに統一インターフェースを提供し、異なるモデルプラットフォーム間の繰...
2026年1月15日、Appleは中国本土のユーザー向けにApple Payの越境決済サポートを拡大すると発表しました。対象となる現地銀行が発行したVisaのクレジット/デビットカードを「ウォレット」に追加し、オフラインの加盟店や海外の非接触決済をサポートするオンラインシナリオでApple Payで...
美団のLongCatチームは「LongCat-Flash-Thinking-2601」をリリース・リリースしました。これは「深く一般的なエージェント思考」のためのバージョンとして位置づけられ、エージェント検索、エージェントツールの使用、ツール統合推論などのタスクで高得点を得ることに重点を置き、ランダ...
PixVerse ResearchはPixVerse-R1に関する技術記事を公開し、「リアルタイム生成」に関連するページを立ち上げました。R1は「リアルタイム世界モデル」と呼び、固定時間のクリップから持続可能でインタラクティブな視覚ストリームへと動画生成を拡張でき、ユーザーの入力で映像が瞬時に変化し...