同義千文は、対面コミュニケーションやオフラインイベント向けに設計されたリアルタイム・マルチモーダル同時通訳モデル「Qwen3-LiveTranslate-Flash」のリリースを発表しました。公式データによると、このモデルはエンドツーエンドの遅延が約3秒以内で認識と翻訳を完了し、 18言語を認識し、 6つの方言を理解し、 10言語の音声を出力し、自然で表現力豊かな音声を提供します。このモデルは「視覚的に強化された理解」を重視しており、唇の形、ジェスチャー、画面上のテキスト、エンティティ認識を組み合わせることで、騒音環境でも堅牢なパフォーマンスを維持します。
Alibaba Cloud DashScopeは、 Qwen3-LiveTranslate-Flash-Realtimeインターフェースとレート制限の設定手順を提供し、手軽に体験できるオンラインデモ「Hugging Face」も提供しています。公式チャンネルでは「オフラインレベルの精度」を備えたリアルタイム通訳ソリューションと説明されていますが、具体的なパフォーマンスは入力デバイス、環境ノイズ、ネットワーク状況によって異なります。多言語対応範囲とレイテンシ指標については、製品ドキュメントおよび後続の技術レポートをご確認ください。
よくある質問
Q: どのような言語と出力がサポートされていますか?
A: 18 の言語を認識し、6 つの方言を理解し、10 の言語で音声を出力できます。完全なリストについては、Model Studio のドキュメントを参照してください。
Q: レイテンシーと堅牢性はどうですか?
A: 公式の推定では、エンドツーエンドで約3秒です。リップリーディング、ジェスチャー、スクリーンリーダーを組み合わせることで、ノイズの多い環境でも安定性を高めることができます。実際の時間はデバイスとネットワークによって異なります。
Q: 体験や通話の方法は?
A: Hugging Face でデモを体験できます。Alibaba Cloud DashScope のリアルタイム インターフェースを通じて本番環境への統合が可能です。
Q: オープンソースですか?
A: API 形式で提供されており、その完全な重みは現在公開されていません。関連する例とデモンストレーションは、GitHub/HF/ModelScope エコシステムで同期的に更新されます。
Q: 適用可能なシナリオは何ですか?
A: 異言語間の対面コミュニケーション、会議通訳、観光サービス、コンテンツ作成の吹き替え、ライブ同時通訳などのリアルタイムアプリケーションです。