TongyiがQwen3-LiveTranslate-Flashをリリース：18言語認識、10の音声出力、6つの方言をサポート

AI情報 • Admin • 2025/9/24 • 72 回閲覧

同義千文は、対面コミュニケーションやオフラインイベント向けに設計されたリアルタイム・マルチモーダル同時通訳モデル「Qwen3-LiveTranslate-Flash」のリリースを発表しました。公式データによると、このモデルはエンドツーエンドの遅延が約3秒以内で認識と翻訳を完了し、 18言語を認識し、 6つの方言を理解し、 10言語の音声を出力し、自然で表現力豊かな音声を提供します。このモデルは「視覚的に強化された理解」を重視しており、唇の形、ジェスチャー、画面上のテキスト、エンティティ認識を組み合わせることで、騒音環境でも堅牢なパフォーマンスを維持します。

Alibaba Cloud DashScopeは、 Qwen3-LiveTranslate-Flash-Realtimeインターフェースとレート制限の設定手順を提供し、手軽に体験できるオンラインデモ「Hugging Face」も提供しています。公式チャンネルでは「オフラインレベルの精度」を備えたリアルタイム通訳ソリューションと説明されていますが、具体的なパフォーマンスは入力デバイス、環境ノイズ、ネットワーク状況によって異なります。多言語対応範囲とレイテンシ指標については、製品ドキュメントおよび後続の技術レポートをご確認ください。

よくある質問

Q: どのような言語と出力がサポートされていますか?

A: 18 の言語を認識し、6 つの方言を理解し、10 の言語で音声を出力できます。完全なリストについては、Model Studio のドキュメントを参照してください。

Q: レイテンシーと堅牢性はどうですか?

A: 公式の推定では、エンドツーエンドで約3秒です。リップリーディング、ジェスチャー、スクリーンリーダーを組み合わせることで、ノイズの多い環境でも安定性を高めることができます。実際の時間はデバイスとネットワークによって異なります。

Q: 体験や通話の方法は？

A: Hugging Face でデモを体験できます。Alibaba Cloud DashScope のリアルタイムインターフェースを通じて本番環境への統合が可能です。

Q: オープンソースですか?

A: API 形式で提供されており、その完全な重みは現在公開されていません。関連する例とデモンストレーションは、GitHub/HF/ModelScope エコシステムで同期的に更新されます。

Q: 適用可能なシナリオは何ですか?

A: 異言語間の対面コミュニケーション、会議通訳、観光サービス、コンテンツ作成の吹き替え、ライブ同時通訳などのリアルタイムアプリケーションです。

TongyiがQwen3-LiveTranslate-Flashをリリース：18言語認識、10の音声出力、6つの方言をサポート

関連記事

GPT-5-Codex が Responses API で利用できるようになり、Codex CLI でも同じモデルがサポートされるようになりました。

Qwen3-Coder アップグレードリリース: ターミナルベンチのパフォーマンス向上、Qwen コード/Claude コード統合のサポート

Kimi K3公式発表:2.8兆のパラメータが数百万のコンテキストとオープンウェイトに賭けられます

Mistral Studioがプロンプトバージョン管理を追加:エンタープライズAIが行動資産を管理しています

おすすめツール

TongyiがQwen3-LiveTranslate-Flashをリリース：18言語認識、10の音声出力、6つの方言をサポート

関連記事

GPT-5-Codex が Responses API で利用できるようになり、Codex CLI でも同じモデルがサポートされるようになりました。

Qwen3-Coder アップグレードリリース: ターミナルベンチのパフォーマンス向上、Qwen コード/Claude コード統合のサポート

Kimi K3公式発表:2.8兆のパラメータが数百万のコンテキストとオープンウェイトに賭けられます

Mistral Studioがプロンプトバージョン管理を追加:エンタープライズAIが行動資産を管理しています

おすすめツール

AIツールを投稿

投稿情報を確認してください