アリババクラウド通一千問チームは、Qwen3-Omni-Flash 2025-12-01版を発表しました。これにより、ビデオおよび音声の対話、音声インタラクション、多言語処理が大幅にアップグレードされました。 新バージョンは複数のビデオおよび音声の理解において自然な対話に近く、シーンや文脈の変化を継続的に追跡でき、システムプロンプトを通じてカスタマイズされた対話の個性をサポートし、ロールプレイングやバーチャルアシスタントなどの異なる応用シナリオに適応します。
言語と音声面では、Qwen3-Omni-Flashの新バージョンは119のテキスト言語と19の音声言語をサポートし、より安定した多言語対話と認識能力に焦点を当てています。音声合成効果は「実際の人に近い」ことを強調しており、長期のボイスチャット、コンテンツ制作、インテリジェントなカスタマーサービスなどに適しています。 公式ウェブ版では、Qwenチャットの下部にあるVoiceChatおよびVideoChatボタンを通じて、音声やビデオ通話を直接体験できます。
このアップグレードにより、リアルタイムおよびオフライン両方のAPIフォームが開放されます。音声会話のストリーミングやマルチモーダルインタラクションのためのリアルタイムAPIと、バッチ処理やローカル統合のためのオフラインAPIです。 開発者はまた、Hugging FaceやModelScopeの公開スペースを通じてデモ版を体験し、ドキュメントを閲覧し、Alibaba Cloudコンソールでアクセス権限を設定することも可能です。 使用中はアカウント割当、手数料、音声データのセキュリティに注意を払い、ビジネスのニーズに応じてオンラインかオフラインかを選択する必要があります。
FAQsQ
: Qwen3-Omni-Flash 2025-12-01 バージョンとは何ですか?
A: これはQwen3-Omni-Flashの重要なアップグレードであり、多ラウンドAV理解、多言語処理、人間のような音声合成能力の向上に焦点を当てています。
Q: このアップグレードの新機能は何ですか?
A: より自然なマルチターンのビデオ・音声会話、システムプロンプトによる個性カスタマイズ、119のテキスト言語と19の声に対するより安定したサポート、そしてよりリアルな音声合成が含まれます。
Q: 一般ユーザーはQwen3-Omni-Flashの新バージョンをどのように体験できますか?
A: Qwen Chatのウェブページで、インターフェース右下のVoiceChatおよびVideoChatボタンから音声またはビデオ通話モードに入ることができます。追加のインストールは不要です。
Q: リアルタイムAPIとオフラインAPIの違いは何ですか?
A: リアルタイムAPIは低遅延のストリーミング会話やリアルタイム音声シナリオに重点を置いており、オフラインAPIはバッチ処理、バックエンドサービス、ネットワーク依存度の低いアプリケーション統合に適しています。
Q: 音声やビデオ機能を使う際の考慮点は何ですか?
A: アカウントアクセス権、通話料、データコンプライアンスに注意を払い、機密性の高い個人プライバシーや監督されたコンテンツを含む音声や動画データの不正アップロードを避けてください。