Qu’est-ce que la VLA ? Pourquoi ne pouvons-nous pas éviter la Vision-Langage-Action en ce qui concerne le contrôle d’action lors de l’atterrissage des robots ?

VLA est l’abréviation de Vision-Langage-Action, qui se traduit littéralement par le modèle « Vision-Langage-Action ». La plus grande différence avec les modèles multimodaux ordinaires est qu’ils peuvent non seulement lire des images et comprendre le texte, mais aussi transformer les résultats de compréhension en actions exécutables. C’est précisément grâce à cette étape que le VLA est devenu un mot-clé presque inévitable dans la discussion sur les robots et l’intelligence incarnée.

Alors que les modèles de langage visuel traditionnels produisent principalement du texte, VLA va encore plus loin : voir l’environnement, comprendre les instructions, puis générer des actions. Par exemple, « apporte la tasse rouge sur la table jusqu’à l’évier », pour un système VLA, il ne s’agit pas seulement de reconnaître la tasse rouge et de comprendre les phrases, mais aussi de la convertir en véritables signaux de contrôle pour pousser le bras robotique à accomplir la tâche.

Pourquoi est-ce en feu ? Parce que le domaine de la robotique est bloqué sur une faille depuis longtemps. La perception est un système, la compréhension du langage est un système, et le contrôle d’action est un autre système, et les trois reposent souvent sur un grand nombre de règles manuelles pour se battre avec acharnement. L’attrait du VLA est que tout le monde souhaite relier ces couches de façon plus unifiée, afin que le modèle puisse passer directement de « comprendre et comprendre » à « pouvoir faire ».

Cependant, le VLA n’est pas simplement un grand modèle relié à un bras robotique. La réalité, c’est que le monde réel est bien plus complexe que de discuter. Il y a une continuité dans l’action, l’environnement changera, la saisie échouera, la position de l’objet sera décalée, le capteur sera bruyant, et la frontière de sécurité ne peut pas être fausse. Par conséquent, un modèle VLA doit non seulement comprendre, mais aussi être suffisamment stable, en temps réel et capable de résister aux incertitudes du monde physique.

Elle est étroitement liée aux mots IA physique et modèle du monde, mais les frontières sont différentes. L’IA physique est plutôt un grand mot de direction, mettant l’accent sur l’entrée de l’IA dans l’environnement physique réel ; Le modèle du monde tend à permettre au système de comprendre la cause à effet environnementale et les changements futurs ; Les VLA sont plus spécifiques, se concentrant sur la conversion des entrées visuelles et verbales en sorties d’action. Vous pouvez le considérer comme une forme de modèle très critique pour la couche d’exécution du robot.

La récente sortie des modèles robotiques de Google DeepMind, RT-2 et Gemini Robotics continuera de ramener le mot VLA sous les projecteurs, notamment parce que l’industrie a commencé à considérer « la capacité des robots à faire des choses en général » comme une proposition réaliste. Les robots qui ne répètent que des mouvements à des stations fixes ne sont pas nouveaux, et les véritables modèles imaginatifs sont des systèmes capables de comprendre les instructions ouvertes et de s’adapter aux changements de l’environnement.

Ainsi, VLA est devenu un mot à la vogue non seulement parce qu’il sonne à la pointe, mais aussi parce qu’il se trouve à l’intersection la plus critique de l’atterrissage des robots : la perception, la compréhension et l’action peuvent être reliées. Une fois que les robots veulent vraiment entrer dans les foyers, entrepôts, usines et magasins, ce problème ne peut plus être évité.

Articles connexes

Qu’est-ce que les jetons de raisonnement ? Pourquoi c’est devenu une nouvelle métrique pour de nombreuses équipes lorsqu’on considère les coûts d’inférence

Qu’est-ce qu’un Model Router ? Pourquoi les produits multi-modèles ressemblent de plus en plus à un routage et une réponse ultérieure

Qu’est-ce que les évaluations IA ? Pourquoi évaluez-vous les applications d’IA avant de les lancer ?

Qu’est-ce que le réglage fin de LoRA ? Pourquoi peut-on entraîner des modèles dédiés à un coût aussi bas ?

Outils Recommandés