VLA 是什么?为什么机器人落地一谈到行动控制就绕不开 Vision-Language-Action
VLA 是 Vision-Language-Action 的缩写,直译就是“视觉-语言-动作”模型。它和普通多模态模型最大的不同,不只是能看图、懂文字,而是最后还要把理解结果变成可执行动作。也正因为多了这一步,VLA 现在几乎成了机器人和具身智能讨论里绕不开的关键词。 如果说传统视觉语言模型的输出大...
AI百科 • Admin •
120
找到 2 篇相关文章
VLA 是 Vision-Language-Action 的缩写,直译就是“视觉-语言-动作”模型。它和普通多模态模型最大的不同,不只是能看图、懂文字,而是最后还要把理解结果变成可执行动作。也正因为多了这一步,VLA 现在几乎成了机器人和具身智能讨论里绕不开的关键词。 如果说传统视觉语言模型的输出大...
Physical AI 通常指让 AI 不只理解文字、图片和语音,还能进入物理世界去感知、预测、规划和执行动作。它会成为 2026 年机器人圈的高频热词,是因为大家开始更明确地把“会和真实环境互动的 AI”单独拎出来,而不再把它简单算作普通大模型的延伸。 它和一般意义上的生成式 AI 有什么不同 生...