具身智能和世界模型是一体化的同一智能。

要让智能理解世界模型,必须是通过具身智能的技术路线发展出来,所有不同的生物,不同的智能形态,都是直接决定于这个生物在物理时空中的生存形式。

各种生物对物理反馈,都可以看作这种生物对世界的一种理解形式,所以,直接在物理时空中的具身化发展和训练出的智能,才能理解世界。

智能“理解”世界,这个所谓的“理解”,其实是它的生存形式的模式化。没有固定的对世界的“理解”,“理解”存在于具身智能在物理世界中的存在特定形式中。“理解”即“有效的生存模式”,智能体为了在特定物理形态下达成目标函数(生物的成功生存)而内化的一套“感知-行动-预测”循环模式。

蝙蝠对世界的“理解”是超声波的反射模式。蜜蜂的“理解”是偏振光和舞蹈的通讯。因此,不存在一个的唯一绝对客观的“世界模型”,只存在相对于某种“具身形式”的时空环境下的有效达成目标函数的世界模型(有效求解空间)。

如果你对机器人说"把杯子轻轻放桌上",它需要理解: "杯子"是哪个物体(视觉识别) "放桌上"是怎样的动作(笛卡尔空间的坐标) "轻轻放"是怎样的力(力矩控制) "桌上"是哪里(环境建模) 这就像你教小朋友"不要打碎杯子",小朋友需要理解"杯子"、"打碎"、"轻拿轻放"之间的关系,而不仅仅是记住"不要打碎"这个指令。 "多模态大模型"可应用于解决这个问题——把视觉、语言、力觉等信息融合起来,让机器人真正"理解"指令背后的物理含义。 这里就包含了语言符号与实际物理感知信号模式、反馈行为模式的映射。

Logo

立足具身智能前沿赛道,致力于搭建全球化、开源化、全栈式技术交流与实践共创平台。

更多推荐