Keye-VL-1.5-8B Open Source : Encodage vidéo lent-rapide et contexte 128k, apportant des outils d’IA multimodaux dans l’ère des longues vidéos
Il s’agit d’un grand modèle d’intelligence artificielle pour la compréhension vidéo. Keye-VL-1.5-8B prend en charge les modes de raisonnement contextuel, pensant et non raisonnant 128k grâce à l’encodage vidéo Slow-Fast, au pipeline de données de démarrage à froid LongCoT et à l’alignement de l’apprentissage par renforcement, et atteint une compréhension de haute qualité dans plusieurs scénarios d’images et de vidéos, ce qui le rend adapté à l’intelligence et à l’automatisation de la production de contenu, de la récupération et des applications interactives.
1. Positionnement et points forts
1. Positionnement du modèle : l’outil d’IA multimodal
Keye-VL-1.5-8B se concentre sur l’inférence de vidéos longues et d’images croisées, et la chaîne de raisonnement de l’intelligence artificielle peut être une modélisation unifiée entre les images, les vidéos et le texte, prenant en charge un grand contexte et une entrée multi-images. Découvrez l’application à grande échelle des stations de contenu et des stations de recherche.
2. Technologies clés : Lent-Rapide + Contexte long + Amélioration de l’alignement
L’encodage vidéo lent-rapide prend le canal haute résolution dans le cadre radicalement changeant et poursuit la couverture du domaine temporel dans le canal rapide dans le clip statique. Élargissez le contexte à 128k avec une pré-formation étape par étape ; puis l’apprentissage par renforcement et l’alignement des préférences humaines pour améliorer l’explicabilité et la stabilité.
(1) Mode de réflexion et entrée multimodale
Fournissez deux modes, la pensée et la non-pensée, qui peuvent non seulement approfondir le raisonnement en chaîne, mais également rechercher une faible latence dans les applications en temps réel. Les jetons visuels peuvent être configurés de manière flexible pour couvrir plusieurs entrées d’images et de vidéos.
(2) Facilité d’ingénierie et écologiquement compatible
Adapté nativement à vLLM et swift et à d’autres écosystèmes d’inférence, ce qui est pratique pour le lancement rapide et la mise à l’échelle élastique. Il prend en charge les modes de déploiement hors ligne et en ligne, et convient à l’évaluation A/B d’entreprise et à la publication en niveaux de gris.
2. Itinéraire d’atterrissage
1. Contenu et recherche : trois étapes pour former une chaîne de montage réutilisable
Les outils d’IA connectent le nettoyage des données, l’extraction des sous-titres et la segmentation des objectifs ; Le modèle principal complète la vidéo-réponse, l’extraction de faits et la récupération de plusieurs images. Enfin, l’estimation de la qualité et l’examen humain sont fermés pour former un résultat stable.
2. Collaboration entre les agents : ChatGPT+Claude+Keye
utilise ChatGPT pour générer des plans de tâches et des invites, Claude s’occupe de la sécurité et de l’examen du style, et les dirigeants de Keye comprennent de longues vidéos et répondent multimodales, automatisant l’intelligence artificielle de la planification à l’exécution.
(1) Liste de contrôle de déploiement
a. Sélectionnez l’inférence vLLM et le cache KV
b. Activez les paramètres Slow-Fast et la limite multi-graphe
c. Etablir une base terminologique et améliorer la récupération
d. Configurer une stratégie à deux voies entre réflexion et non-réflexion
e. Surveillance des journaux d’accès et régression
de la qualité 3. Performances, compatibilité et licence
1. Performances stables des longues vidéos et des benchmarks multiples
Legrand modèle fonctionne bien dans les tâches de compréhension de contexte long et de vidéo, en tenant compte des capacités multimodales générales, et convient aux scénarios à plusieurs niveaux, des questions-réponses vidéo courtes à l’analyse de programme long.
2. Inférence et écologie
Les outils d’IAprennent en charge nativement le parallélisme par lots et la mise en cache des préfixes, ce qui peut augmenter considérablement le débit lorsqu’il est combiné à une orchestration automatisée. Connectez-vous en douceur au cadre d’annotation et d’évaluation des données existant.
(1) Licence open source
Le modèle est publié sous une licence open source, ce qui est pratique pour la recherche scientifique et la personnalisation de l’entreprise ; Il est recommandé de combiner les politiques de conformité et de confidentialité de l’entreprise pour compléter l’alignement secondaire et la compression de distillation.
4. Risques et limites
1. Coût et stabilité du contenu ultra-long
Les contextes ultra-longs entraîneront des fluctuations de mémoire et de latence, ce qui peut réduire les coûts grâce à un mode de non-réflexion et à une synthèse segmentée.
2. Données et conformité
Lorsqu’il s’agit de vidéos utilisateur, elles doivent être désensibilisées et minimisées. Créez des journaux d’audit et des listes noires de cas d’utilisation pour réduire le risque d’erreur de jugement.
5. Address
adresse de l’élément :https://github.com/Kwai-Keye/Keye
essayez ici :https://huggingface.co/spaces/Kwai-Ke ye/Keye-VL-1_5-8B
thèse :https://
Foire aux questions (Q&R)
Q : Comment utiliser ChatGPT et Claude pour connecter Keye à un pipeline d’outils d’IA ?
R : ChatGPT génère des invites et des scripts de caméra, Claude s’occupe de la sécurité et de l’examen du style, Keye effectue des questions-réponses vidéo et de l’extraction des faits, et enfin ferme la boucle de l’inspection de qualité automatisée et de l’examen humain pour terminer le lancement intelligent et automatisé.
Q : Quelle est la valeur réelle de la stratégie Slow-Fast pour la compréhension des vidéos de longue durée ?
R : Utilisez la haute résolution pour améliorer les détails dans les modifications importantes, étendre la couverture du domaine temporel dans les segments stables, et les outils d’IA peuvent améliorer la cohérence entre les images et le rappel de récupération avec la même puissance de calcul.
Q : Quand choisir un mode de réflexion et quand choisir un mode de non-réflexion ?
R : Utilisez des schémas de pensée lorsque des raisonnements et des explications complexes sont nécessaires ; Le mode de sélection du service en ligne, qui vise une faible latence et un débit élevé, peut être commuté dynamiquement en fonction du SLA du service.
Q : Par rapport au modèle général multimodal large, quels sont les avantages et les compléments de Keye ?
R : Keye est plus enclin à la compréhension vidéo et au contexte long, ce qui convient à l’analyse de programmes longs et à la récupération inter-images ; ChatGPT et Claude ont une planification et un contrôle des risques plus solides, et la combinaison peut amplifier l’efficacité de bout en bout des outils d’IA.