Alibaba Cloud a annoncé le lancement de Qwen3-VL-Flash dans Model Studio, offrant des chemins de raisonnement en « mode pensée » et « mode non pensée » pour la compréhension d'images et de vidéos. La documentation officielle indique que la série Qwen3-VL-Flash offre une limite de contexte d'environ 260 096 jetons en mode non pensée et 258 048 jetons en mode pensée (facturés par intervalle), respectivement, et prend en charge des entrées visuelles jusqu'à 16 384 jetons par image. Cette série privilégie une réactivité accrue et des coûts d'appel réduits, ce qui la rend idéale pour les scénarios à forte charge, comme les vidéos et les documents longs.
En termes de fonctionnalités, la documentation de Model Studio mentionne la compréhension vidéo, la localisation d'événements et l'extraction d'horodatages, ainsi que la détection d'objets 2D/3D, la détection de relations spatiales et d'occlusion. Elle couvre également l'analyse de documents, la reconnaissance de formules/tableaux et l'OCR multilingue, et fournit un paramètre d'interface permettant d'activer ou de désactiver le « mode de réflexion » (enable_thinking). Des sources officielles affirment également que le nouveau modèle offre des avantages en termes de vitesse, de capacités globales et de coût par rapport aux modèles open source Qwen3-VL-30B-A3B et Qwen2.5-72B. Les détails de comparaison et les nouveaux tests effectués par des tiers restent à dévoiler.
Questions fréquemment posées
Q : Quelle est la limite de contexte de Qwen3-VL-Flash ?
R : Le document répertorie environ 260 096 jetons en mode non-pensant et environ 258 048 jetons en mode pensant, et son prix est divisé en segments de 0 à 32 000, 32 000 à 128 000 et 128 000 à 256 000.
Q : Comment passer du « mode réflexion » au « mode non réflexion » ?
R : Ceci est contrôlé par le paramètre enable_thinking dans l'appel d'API ; le modèle pensant effectuera un raisonnement implicite avant de donner la réponse, tandis que le modèle non pensant la générera directement.
Q : Quels scénarios typiques sont pris en charge ?
A : Réponse aux questions/résumé de longues vidéos et de longs documents, détection d'objets 2D/3D et localisation spatiale, analyse de documents (y compris tableaux et formules), OCR multilingue et contrôle des tâches d'agent basé sur la vision.
Q : Quelle est la relation avec les Qwen3-VL-30B-A3B et Qwen2.5-72B open source ?
R : Officiellement, il est supérieur en termes de vitesse, de capacités et de coût, mais il s'agit là d'une déclaration du fabricant. Il est recommandé de prêter attention aux benchmarks publics et aux évaluations tierces ultérieures.
Q : Où puis-je accéder aux prix et les consulter ?
R : Vous pouvez afficher le contexte, la tarification segmentée et l'exemple de code pour qwen3-vl-flash dans la documentation Visual Understanding et les pages Modèle/Facturation d'Alibaba Cloud Model Studio, et obtenir des instructions API via la page de documentation de la console.