从空间智能到具身智能，跨维践行Sim2Real AI最高效路径

机器之心发布机器之心编辑部具身智能狂潮降临的一年多里，物理世界与信息的生产与交互方式发生着革命性变化

机器之心发布

机器之心编辑部

具身智能热潮出现一年多来，物理世界和信息的生产方式和交互方式发生了革命性的变化。

与此同时，一场新的战斗正在悄然打响：各大厂商都在绞尽脑汁，争夺最有价值的AI“燃料”——数据。目前，数据匮乏仍然是普遍体现智能面临的一道高墙。纵观过去三年，在Google、NVIDIA、OpenAI等知名公司对具身智能的研究中，我们尚未看到Scaling Law的出现。这与各类数据的缺乏有关。

如何解决这个根本痛点？从技术角度来看，Sim2Real AI是一条长期存在的道路。但由于消除Sim2Real差距存在“概念偏差”，学术界和工业界更多地将其视为一种辅助数据补充方法。

但真的是这样吗？

香港中文大学（深圳）终身教授、跨维智能创始人贾奎通过学术界到工业界的长期实践给出了答案：“Sim2Real AI是实现具身智能的最高效路径。”

从二维视觉到三维视觉，从空间智能到具身智能，从科研到产品到商业落地，贾奎在这个领域探索了二十多年。最近，在WAIC上，有一场关于具身智能如何突破数据困境的对话。

如果您使用人工智能来尝试理解这段对话，它可能会帮助您总结以下要点：

目前最热门的话题，空间智能和具身智能的本质是什么？

利用尺度法则范式实现空间智能和实体智能的具体意义是什么？

实现通用具身智能的最有效途径是什么？

体现智能如何从技术转移到产品再到业务实施？

未来，什么样的想象能够实现，能够突破行业的生产范式？

当然，也有AI暂时无法理解的部分。 ——，这位科研工作者、企业家，展现了坚定的信心和历史使命。

以下为采访实录：

打造“世界模式”

触发机器人“灵性”

问：被誉为“人工智能教母”的李飞飞教授在创业时选择了“空间智能”方向，引起了该领域的广泛关注。您能谈谈您对空间智能和具身智能的理解吗？

贾奎：空间智能和具身智能是近年来社会层面备受关注的话题，但其背后的学术研究却由来已久。空间智能是一个多维度的概念，通常是指个体在三维物理空间和四维时空的认知和推理能力，包括感知、推理、决策等。智能系统具有物理形态，并通过该形态与环境进行交互。具身智能不仅关注感知，还包括智能体对环境的行动和反应。就像人类用眼睛感知世界一样，具身智能要求机器人能够通过多模态传感器进行感知、交互和决策，形成全面的空间认知和操作能力。

问：空间智能和具身智能有何异同？

贾奎：前面提到，空间智能赋予人工智能感知和理解现实世界的能力，而具身智能不仅需要对空间智能涉及的物体、环境和其他主体的感知和认知推理，还进一步涵盖了机器人操作所需的高层运动规划和低层运动控制，以及由机器人本体与操作对象之间的相互作用定义的各种类似于人类操作能力的机器人“技能”。掌握每项技能意味着机器人可以处理与该技能相关的各种物体，而不仅仅是特定的特定物体。

这些技能包括形成机器人技能库或“技能空间”的“子技能”和“原子技能”的集合。具身智能的本质是学习并泛化这个技能空间，从而实现像人类一样具有具身属性的通用人工智能（AGI）。

在具体应用中，空间智能的范围更广，可以附着在机器人上，也可以脱离机器人。本质上是一个对空间的理解问题，比如它的重要应用AR/VR。具身智能主要体现在机器人，尤其是通用（人形）机器人上。

总体而言，空间智能更侧重于四维空间和时间的认知和推理能力，而具身智能则进一步包括通过物理形态直接与环境互动的能力。

Q：为什么选择空间和体现智能方向创业？

贾奎：可以说我们很早就关注这个领域，有深厚的历史积淀和技术积累。团队早期成立了“几何感知与智能实验室”，当时这一领域还没有知名“大厂”涉足。我们是国内最早将人工智能技术应用于3D等非欧洲数据的学者和团队之一。

我们团队在几何深度学习、3D建模、空间感知、机器人应用等方向进行了大量的交叉创新研究，取得了一系列代表性成果，包括Grasp Proposal Networks (NeurIPS 2020)、Analytic Marching (ICML 2020/TPAMI 2021)、稀疏可操纵卷积(NeurIPS 2021)、3D AffordanceNet (CVPR 2021)、Fantasia3D (ICCV 2023)、SAM-6D (CVPR 2024) 等。

视频加载中.

DexVerse 2.0引入了全新的4D Mesh技术，专为动态物理模拟和数据渲染生成而设计，可以统一处理刚体、软体、流体等多种物体。 4D Mesh作为引擎的核心表达形式，将贯穿从物理仿真、数据标注生成到大模型训练的整个过程。

问：您对空间和实体智能的核心概念有何理解？在这个热门赛道上，跨维度有何优势？

Jacqui：我们认为空间智能和实体智能的核心在于建立“世界模型”，让机器人拥有与人类感知类似的“灵性”。具体来说，需要建立一个能够精确建模、理解和推理空间几何和物理过程的“世界模型”，使包括视觉、力、触觉等在内的各种机器人传感器能够具备人类的感知能力。

在当前的AI架构和模型范式下，我们团队希望通过生成物理模拟捕捉人类生活世界的时空四维镜像，从而获得无尽的物理属性数据——，这是实现空间智能和具身智能的关键。

因此，宽维自成立以来，打造了底层自研的DexVerse空间和具身智能引擎，可以针对特定业务场景实现“物理模拟-数据合成-模型训练”的全链自动化，并在此基础上形成空间智能和实体智能以及纯视觉智能传感器的大型模型套件，赋予通用机器人智能的大脑和眼睛。

目前，宽维已在多个商业场景、100%合成数据、毫米/亚毫米作业精度要求下，实现了99.9%以上的任务成功率。

宇宙空间和具身智能

距离终点还有多远？

问：您刚才谈到使用尺度法则范式来实现空间智能和实体智能。您能详细说明一下其具体含义吗？实现通用空间和体现智能是否比实现大型语言模型的通用性更困难？有什么难度呢？

贾奎：实现普适空间和具身智能确实比实现大语言模型的普适性更困难。以OpenAI的GPT系列为代表的大型语言模型，实现了零样本（zero-shot），即通用能力，展现了所谓AGI的曙光。

人类自然语言可以看作是对我们所生活的宇宙和自然环境进行高度抽象提炼出来的语义代码。因此，大型语言模型直接在抽象层面上学习和泛化相对容易。

相比之下，空间智能需要从传感器获取的原始信号中学习，这意味着跨越从原始数字信号到人类语义符号的“语义鸿沟”。通过类似GPT的Scaling Law范式学习通用智能，需要大量的训练数据；而空间智能的训练数据不仅需要大量的数据，还需要对传感器获得的原始信号进行精确校准，以确保其在绝对物理尺度上进行测量。这比从互联网获取海量图像文本数据要困难得多。

具身智能更进一步。除了从视觉、力、触觉等高维感觉信号中学习通用智能之外，其更本质的目标是学习由机器人本体和操作对象共同定义的机器人“技能空间”。具身智能的通用性体现在技能空间的泛化上，这增加了学习不同范式的难度。

问：您能谈谈空间智能和具身智能所需的具体多模态大模型能力吗？

贾奎：空间智能涉及三维物理世界中的感知、交互、推理、决策等任务。具身智能进一步要求基于视觉、力、触觉等空间感知信号的智能分析，形成机器人自主操作技能库。

因此，需要包括自然语言、力触、机器人身体状态等模态的多模态大模型能力。这些多模态可以“集成”在共同的语义、时空和技能空间中，从而实现类人的空间智能和具身智能。

问：在您看来，宇宙空间和具身智能距离最终目标还有多远？

贾奎：目前，缩放法则AI范式的特点是海量数据、大模型和巨大的算力。在通用机器人硬件成熟的前提下，即可以高性价比地使用人形机器人、灵巧手、人形传感器等核心部件。稳定的量产至少可以支撑空间智能和实体智能在多个有边界、ROI合理的闭环业务场景中形成独立的商业价值。

具体来说，在工业、物流、商业、家庭等多个场景中，机器人可以以泛化的方式完成多种任务。当然，这需要获取具有物理属性的海量多模态数据，以及支持监督训练、模仿学习、强化学习等多种学习策略的丰富标注的自动计算。

实现通用具身智能的最有效途径

问：我注意到您在WAIC 演讲中提到“Sim2Real AI 是实现体现智能的最有效途径”。你能扩展一下吗？

Jacqui：为了实现体现智能，必须考虑数据的性质和目的。具身智能的目标是让机器人基于视觉、力、触觉等传感器信号，在不断变化的物理世界中实现通用操作能力，就像我们人类日常生活中所做的那样。

在Scaling Law AI范式下，即机器学习模型不具备真正的通用智能或泛化能力，而仅具有学习统计分布及其统计分布的“插值”能力。训练实体智能机器人需要获取大量数据。

这些数据应该涵盖每个机器人技能所涉及的各种操作条件，例如从早到晚、春夏秋冬、室内到室外的所有操作条件。如果依赖机器人数据收集系统或者可穿戴设备，比如我们熟悉的“远程操作”，那么要收集足够的数据，首先需要建立一个商业模式，让用户享受服务和商业价值，同时也有助于收集数据。数据，但目前还没有这样的方法。

相比之下，Sim2Real AI可以通过物理模拟和合成数据更有效地涵盖上述所有变化。该方法允许在虚拟环境中模拟各种操作对象、环境变化、机器人配置和传感器变化，并且可以针对不同业务场景共享底层物理模拟和数据生成能力。任何操作对象，包括刚体、铰链、软体、流体等，都可以通过精确的物理模拟支持数据生成。

因此，总的来说，虽然利用机器人数据采集系统或可穿戴设备“远程操作”可以快速演示一些类人操作动作，但与实现通用机器人所需的体现智能能力相比，这种方法还不够。 “反其道而行之”，Sim2Real AI是实现目标最有效的方式。

问：在这种技术方式下，如何消除合成数据与真实数据之间的差距？

贾奎：从学术角度来看，Sim2Real AI是一条由来已久的技术路径，也是实现空间智能和实体智能的主流路径之一。我们的团队也是从学术界开始的。在产品和业务落地过程中，我们成功走出了一条独特的道路：能够在毫米/亚毫米精度要求下，100%合成数据，实现多场景99.9%的精度。的任务成功率，这可能是世界上独一无二的。

任何成功都不是偶然的，而是基于对问题的深刻理解和系统的解决。跨维度团队从第一性原理出发，思考事物的内在意义，通过将复杂的问题简单化、层层拆解，找到了有效的解决方案。

简而言之，使用Sim2Real AI 实现具身智能需要：

1）机器人本体仿真、多模态传感器仿真、不同形式的操作物体仿真和动态过程仿真；

2）渲染并生成模拟对应的数据和注释；

3）在体现智能大模型设计和训练等方面建立可迁移到Sim2Real的自动化链，至少需要克服以下核心技术门槛：

低级可控实体物理模拟

高效的多模态大模型训练和持续学习

有效处理合成数据域和真实数据域之间的差异

低成本获取海量数字资产

Q：基于您刚才提到的Sim2Real AI技术路径，跨维度的实际效果如何？

贾奎：跨维自下而上构建了实体智能引擎DexVerse，包括物理模拟、数据渲染与生成、自动标注计算、模型设计与训练等模块。该引擎不需要研发人员参与，可以自动生成全链条智能任务体现的AI模型SDK。数据生成速度与AI模型的训练迭代速度同频，因此不需要存储数据和积累很多训练数据。它将不再是实施具身智能的量化标准。目前，DexVerse支持快的软硬件产品在多种场景下的实施。

DexVerse 2.0 更进一步：

首先，给定一个边界清晰的业务场景和机器人硬件配置，DexVerse 2.0可以使用大语言模型自动拆解所涉及的机器人技能和子技能。

其次，对于任何技能或子技能，DexVerse 2.0都可以自动生成模拟所需的物体、场景等数字资产，并基于这些资产进行模拟和渲染，生成虚拟空间中的机器人操作过程数据条。

接下来，通过虚拟空间中的数据生成来训练具体智能3D VLA（视觉语言动作）模型。

最后，训练好的模型可以在选定的业务场景中驱动机器人本体，以通用的方式完成各种机器人技能操作。

eb752806aabe41e3a47dbf36302ac6ff~noop.image?_iz=58558&from=article.pc_detail&lk3s=953192f4&x-expires=1722325090&x-signature=qOizSW7ZYPD%2B%2FR8ECq6fOMUDG9U%3D 采用DexVerse体现智能引擎2.0自动进行任务拆解、场景生成、训练配置生成、模型训练，并将训练好的模型导入真机指导机器人完成鹿积木的组装。

视频链接：https://mp.weixin.qq.com/s?__biz=MzA3MzI4MjgzMw==mid=2650927069idx=1sn=32b8072ec663f02350d310f082511ebbchksm=84e42ba3b393a2b5a5ca60fb8582ae4 320 820f4eb88e827a2f5830eedcc274e6a904482c6f59token=263296417lang=zh_CN#rd

通过这个全自动化引擎，通用机器人练习体现智能技能/子技能的飞轮将最有效地旋转，推动通用机器人在更多场景中落地。宽威将与更多产业方合作，打通生态圈，实现合作共赢，共同推动中国体身智能和通用机器人产业快速发展。

Q：快迪为何选择自主研发发动机？跨维度DexVerse 引擎与NVIDIA 的Omniverse 有何区别？

贾奎：构建跨维度具身智能引擎的理念与NVIDIA的Omniverse等引擎完全不同。

如果说Omniverse是横向拓展，覆盖机器人、科学计算、AI for Science等不同领域，同时服务于NVIDIA的AI算力产品，那么跨维度的DexVerse则是端到端的纵向渗透，引擎的迭代演进服务于垂直场景的体现智能技能任务的实现。

目前，Sim2Real AI仍处于创新驱动产品业务落地阶段。只有依靠自研引擎，才能支持从物理仿真、数据绘制与生成、自动标注计算、体现智能模型设计与训练等各个环节的研发过程。只有攻克关键问题，掌握诀窍，才能让产品真正落地到业务场景中。

体现智能业务的L1-L5落地之路

问：您认为实体智能从技术到产品再到商业落地的实现路径是怎样的？

贾奎：具身智能的本质是通过学习包含各种通用技能的机器人技能库，赋予各类机器人在不同应用场景下的通用操作能力。因此，其商业化必须立足于工业、农业、企业、个人/家庭等有边界的业务场景，“以终为始”，通过建立通用型机器人技能来形成产品价值和商业落地。独立的业务场景。

从技术上讲，具身智能必须利用Sim2Real AI打通任务理解、数字资产生成、数据模拟生成、AI模型训练的自动化链条，以最高效的方式实现通用机器人任务学习，并形成适用的软硬件产品针对不同的业务场景，包括嵌入式智能SoC、智能传感器、通用机器人控制器等。

路上，具身智能首先需要赋能机械臂、复合机器人等相对成熟的硬件本体。随着灵巧手、人形机器人等通用本体的成熟量产，整体能力将进一步提升，产生更大的商业价值。

0f7ceda0ab2649ac9be50a0d8bf6cea4~noop.image?_iz=58558&from=article.pc_detail&lk3s=953192f4&x-expires=1722325090&x-signature=wLG9aU%2BKibcOBzT5xEzYC1c7wPA%3D 问：根据您提出的高度通用的具身智能L1-L5的五个阶段，InterDimension目前处于哪个阶段？

贾奎：基于自主研发的DexVerse实体智能引擎，宽的建立了场景任务理解、数字资产生成、数据模拟生成、AI模型训练等全链能力，服务于智能制造、智能制造等应用场景。农业。已形成智能视觉传感器、PickWiz软件、复合机器人等具体智能产品。

目前，宽威已将“模拟到现实”商业模式落地到汽车零部件、3C制造、新能源、家电、化工、物流等30多个行业。已与广汽、美的、海尔、松下、蓝思科技等众多行业领先客户合作。

参考上图中的L1-L5，InterDimension已经完成了具身智能L1阶段的开发，并正在稳步向L2级别迈进，这是世界上为数不多的之一。

问：您认为实体智能和人形机器人最终的生态链会是什么？宽维度会制作完整的（人形）机器人硬件吗？

贾奎：通用机器人末端生态链由仿人本体制造商、零部件制造商、视觉触觉传感器制造商、具身智能芯片及解决方案供应商等组成，跨维度的DexVerse具身智能引擎将在技术发展中发挥决定性作用。产业链最终状态的路径、产品形态、场景业务实现等。通过DexVerse的Sim2Real AI全链能力，以终为始。从商业闭环的角度，推动实体智能机器人在硬件配置、传感器选择、数据模态范式和多模态大模型等方面的统一标准。

宽维已形成复合机器人、智能视觉传感器、PickWiz软件等实体化智能产品。在落地更多业务场景的过程中，宽维将首先赋能相对成熟的移动/轮足底盘+双机械臂。智能本体，最终与人形机器人本体厂商联手，实现通用具身智能的广泛落地。

{{userData.name}}已认证

从空间智能到具身智能，跨维践行Sim2Real AI最高效路径

火影忍者佩恩图片(漂泊佩恩怎么获得)

智能制造与传统制造的差异