朱嘉明：具身智能的崛起、后果和意义（1.4万字长文）

朱嘉明资料图。横琴数链数字金融研究院朱嘉明教授为刘志毅著《具身智能—AI智能体、世界模型与人类可触碰

b8a3ef4abf884ef5a2fca2c1f967171f~noop.image?_iz=58558&from=article.pc_detail&lk3s=953192f4&x-expires=1725905324&x-signature=DKTdoLyWs50qhkb%2BOeAY4mEqnoY%3D 朱家明资料图。横琴数字金融研究院朱家明教授为刘志毅撰写的《具身智能—AI智能体、世界模型与人类可触碰的未来》一书撰写序言《具身智能的崛起、后果和意义》。

该帐户接受提交。投稿邮箱：jingjixuejiaquan@126.com

具身智能的兴起、后果和影响

（一）

在一波又一波的人工智能浪潮中，嵌入人工智能的具身智能异军突起，正在成为人工智能技术体系的主宰。在人工智能各项成果的收获中全面崛起。在具身智能的背后，即将到来的是一个新物种，它将与碳基人类共存，并且很可能超越碳基人类。可以想象，具身智能所体现的新物种，就像金庸笔下的“九阳神功”和“吸星术”一样，具有超自然的神奇力量，穿透武学原理，达到永恒的“不灭之术”。金刚”。体”。[1]

2024年，如何思考和解读人工智能技术改造和改变的具身智能，具有科学、学术和现实意义。正是在这样的背景下，刘志一的《具身智能—AI智能体、世界模型与人类可触碰的未来》一书的出版恰逢其时。

（二）

关于具身智能的理论有着悠久的历史，至少可以追溯到认知主义、计算主义和笛卡尔（1596-1650）的二元论。以埃德蒙德·胡塞尔（Edmund Husserl，1859-1938）、马丁·海德格尔（Martin Heidegger，1889-1976）和莫里斯·梅洛-庞蒂（Maurice Merleau-Ponty，1908-1962）为代表的现象学家对具身智能理论做出了重要贡献。莫里斯·梅洛-庞蒂有一个非常明确的观点：身体是世界存在的载体。对于生物来说，拥有身体就是在一定的环境中拥有了媒介。 [2]

具身智能思想的演变如下[3]：

47e1aa765fa24c7c907b1d3ba3a0749f~noop.image?_iz=58558&from=article.pc_detail&lk3s=953192f4&x-expires=1725905324&x-signature=v9qqhSC0HOu4ChveM3b76try8cw%3D

具身认知的历史背景

近年来，具身智能日益成为一个跨学科的概念和理论。人们对体现的理论和概念越来越达成共识。 “通过使用‘体现’这个词，我们想强调两点：第一，认知取决于拥有具有各种感觉运动能力的身体所带来的各种体验；第二，这些个体感觉运动能力本身嵌入到更具包容性的生物中。心理和文化背景。” [4]见下图：[5]

3037b08237c34be788325e8ba513da42~noop.image?_iz=58558&from=article.pc_detail&lk3s=953192f4&x-expires=1725905324&x-signature=taMao%2Fz%2FM8nkarzjGSlDDLCDI5U%3D

具身认知的跨学科性质

值得注意的是，在科幻小说史上，具身智能已经塑造了无数故事的主题和主角。甚至可以说，没有具身智能的想象力和创造力，就没有科幻小说等艺术形式。从1818年雪莱夫人出版的《弗兰肯斯坦》《弗兰肯斯坦》到1984年威廉·吉布森出版的《神经漫游者》主角案例，其实都是具身智能和具身智能物种的表现。毫无疑问，文学体现智能远远领先于有技术支撑和现实的体现智能。

（三）

“我们正在经历一场人类思维与人工智能交叉点的革命。”从更宏观的角度来看，人工智能中嵌入的具身智能是人工智能、具身智能和自然智能三个变量的组合。在这三个变量的结合中，就形成了所谓基于人工智能技术的体现智能。

在本书中，作者触及了人工智能中嵌入的体现智能的概念和理论。 “在广阔的人工智能（AI）领域，具身智能（Embodied AI）的概念正在引领一场深刻的范式转变。具身智能不仅仅是机器人物理形态的智能，它是一种哲学认知的融合科学和认知科学强调，智能的产生和发展源于主体与环境之间的动态相互作用。” “具身通用人工智能通过感知-认知-行为的闭环实现不断学习和适应世界。这个闭环过程是AI系统智能行为的基础，它涉及到对世界的感知。外部世界和基于感官数据的世界感知，以及基于认知结果的行动决策。”简而言之，“具身认知理论的核心思想是，智力不是独立于身体和环境的抽象实体，而是与个体的生理特征和环境密切相关”。

作者认为，具身智能侧重于“身体、大脑和环境之间的相互作用”。 “就像生物学中的自然选择过程一样，具体人工智能系统提供视觉、听觉和触觉等感官模式，从外部世界捕获信息并将其转换为抽象概念和模式。” “旨在模拟人类的学习方法，使智能代理能够通过物理或虚拟环境中的交互来完成复杂的任务。” “具身智能的核心在于学习方法的创新。与依赖大量数据和算法的传统人工智能不同，具身智能更注重通过感知、探索和实验与物理世界交互进行学习，这与人类婴儿的学习过程不同。有惊人的相似之处。从学习行走到掌握语言，人类的学习过程充满了探索和实践，而具身智能则模仿这一过程，以实现更加自然、灵活的智能行为。”

此外，作者还努力描述实现人工智能技术与实体智能结合的科学方法，涉及“机器人”、深度学习、强化学习、机器视觉、计算机图形学、自然语言处理、元学习和认知科学。

关于机器人的作用，作者写道：“在认知模型的整合方面，机器人研究促进了机器学习、神经网络、计算机视觉和认知科学理论的交叉应用。这种跨学科的合作使机器人能够执行在处理外部感官输入时进行更高水平的信息处理和决策，从而实现更复杂和自主的行为模式。”

那么，人工智能中嵌入的具身智能是否可以被定义呢？答案是肯定的。以下描述是一般性的：“具身智能是一种计算方法，用于通过考虑主体与其环境（位置性）之间的严格耦合来设计和理解具身和本地主体的智能行为，由主体自身的约束所驱动。身体、知觉和运动系统以及大脑（体现）”。 [6]

本文作者总结的人工智能嵌入的体现智能的定义是：以人形机器人等各类机器人为物理载体，通过构建智能系统支撑的感知层、交互层、运动层，形成增强学习等能力，并使用第一人称视角，实现形态计算、感觉运动协调，并在可持续的类人行为反馈中发展具身认知和与外部物理世界的交互。

（四）

生物学是具身智能的先决条件。这是因为自然智能是基于大脑的高级功能，而大脑的高级功能是由神经细胞通过信号的整合来实现的。大脑是一个极其复杂的组织。 “大脑的本质是整合与复合同时存在”、“大脑存在于身体的环境中”。 [7] 大脑执行的功能最终从根本上将脑化动物与地球上的其他生命形式区分开来。

在人类神经系统中，神经元是关键。 “人体的数十个神经元中，每个神经元都有数千个突触，进行着人体内最大、最协调的细胞对话。神经元之间的联系众多且复杂。成人有800亿个神经元，每个神经元都有800亿个神经元。”神经元有多达10万个突触，所以总数可能达到1万亿个，但更令人震惊的是，神经元之间同时存在着更多的连接，有时形成一种回路，有时又形成另一种完全不同的回路。一种电路。” [8]

2f903258f5744613a0ecbd78f80c55fc~noop.image?_iz=58558&from=article.pc_detail&lk3s=953192f4&x-expires=1725905324&x-signature=5r8yWNwJwEJv7i5A2covtgah8j4%3D 大脑横截面结构

资料来源：维基共享资源

更重要的是，神经具有可塑性，即“神经可塑性”。其本质是由神经元连接的变化引起的。 “神经可塑性可以改变一个树突棘、多个树突棘、整个树突、整个神经元或大脑各部分之间广泛神经回路中的多个神经元。” [9]

因此，“这种来自生物学的灵感启发了模仿大脑神经元网络连接和信息处理机制的神经网络的设计。这些网络不仅能够执行复杂的数据分析，还能进行复杂的决策，就像技术一样。”它复制了大自然的智慧，赋予机器类似于生物的思维和学习机制。”

作者具体提出了生物学对具身智能的几个作用：首先，生物体的神经系统、免疫系统、细胞信号传导等复杂机制是吸收生物学智慧的第一步。神经网络的设计灵感来自于人脑的结构。其次，模拟自然选择、遗传、变异等生物进化原理，对于指导人工智能算法的迭代和优化至关重要。遗传算法模仿生物体的自然选择和遗传机制。第三，借鉴生物系统的鲁棒性和冗余设计对于提高人工智能系统的容错性和稳定性至关重要。第四，介绍了生物学的持续反馈和迭代原理。

作者还讨论了生物学观点的局限性。主要体现在：生物系统的复杂性和不确定性限制了我们对它们的完整认识。受生物学启发的模型可能无法完全捕捉人工智能的全部潜力和复杂性。生物学原理非常擅长解释和模拟某些智能行为，但在处理意识、情感和创造性思维等更高层次的认知功能时可能会遇到难以克服的障碍。

神经科学对于人工智能和实体智能的结合至关重要。 “神经科学和人工智能的交叉正在引发一场前所未有的科技革命。”

作者认为，“神经可塑性作为神经科学领域的核心概念，描述了大脑神经元及其连接如何响应经验和环境的变化而动态调整和重组的过程”。 “神经可塑性这一揭示大脑适应能力和学习能力的概念，已成为推动人工智能领域创新发展的强大引擎。”神经科学的相关贡献包括：神经机制是构建有效人工智能算法的先决条件；模拟神经网络结构是人工智能发展的关键；学习记忆机制研究是提高人工智能算法性能的重要途径；计算神经科学的应用为构建数学模型和模拟系统提供了工具和理论。特别是，“深度学习网络作为人工智能的基石之一，通过模拟大脑神经元的连接和权重调整，实现了从图像识别到自然语言处理的广泛应用。”

作者还撰写了生成对抗网络（GAN）、尖峰神经网络（SNN）、深度神经网络（DNN）和卷积神经网络（CNN），以及自然语言处理（自然语言编程，NLP）模型案例研究证明了神经科学在具身智能中的基本作用。

作者正视脑机接口（BMI）技术的作用：将大脑的神经信号与计算机系统或机械设备直接连接，实现神经科学与人工智能的交叉融合。就像一座连接大脑和机器的神秘桥梁。

2024年5月10日出版的《科学》杂志发表了文章《以纳米级分辨率重建人类大脑皮层颗粒片段》（“以纳米级分辨率重建的人类大脑皮层的petavoxel片段”）。本文介绍并描述了对一立方毫米人类颞叶皮层超微结构的计算密集型重建：它包含约57,000 个细胞、约230 毫米血管和约1.5 亿个突触，数据量为1.4 PB。分析显示，神经胶质细胞的数量是神经元的两倍，其中少突胶质细胞是最常见的细胞。深层的兴奋性神经元可以根据树突的方向进行分类，每个神经元中有数千个弱连接。有多达50 个突触的罕见强轴突输入。使用这一资源进行进一步的研究可能会对人类大脑的奥秘产生有价值的见解。 [10]

毫无疑问，生物科学、神经生物学，特别是基于电子显微镜、短波长电子以及自动化、快速成像方法来重建每个细胞元件和突触，不仅对于脑科学、神经生物学，而且对于AI技术和体现情报突破具有持续的意义。

（五）

在人工智能与实体智能深度融合的过程中，“空间视觉”概念的提出和实践成为最令人着迷的领域。 [11]本书作者写道：“空间智能的探索代表了人工智能领域一个令人兴奋的前沿领域。其核心目标不仅仅是抽象地理解场景，而是实时捕捉并正确表示三维空间。准确解释和采取行动的信息。” “空间智能理论探索的核心在于空间认知的神经机制，这是理解大脑如何处理空间信息的关键。”

从根本意义上讲，“空间智能”的概念对应于人类的视觉系统。

在数十亿年的进化过程中，生物进化出了多种感官。 5.43亿年前的寒武纪时期，一种名为Leytonia的三叶虫长出了地球上的第一只眼睛。后来，眼睛在生物的进化中发挥了重要作用。眼睛的结构就像一个极其精密的仪器。科学研究发现，“视觉系统是人类和高等动物最重要的外层，70%-80%的外部信息通过视觉系统和乳脑”。 [12]“眼睛中的视网膜可以作为大脑的一个独立前哨，它接收并分析信息，然后通过一条清晰的通道——视神经将这些信息传输到更高的中枢进行进一步处理。” [13]

因此，“空间智能的核心在于机器能够模拟人类复杂的视觉推理和行动规划能力，而‘纯视觉推理’的实现是机器人领域的巨大突破。这项技术使机器人能够无需多个传感器的帮助即可进行操作。”在这种情况下，可以通过视觉信息直接理解和操纵3D世界。”“空间智能”需要算法的支持。“空间计算作为一种新兴的计算范式，正逐渐成为人工智能和计算机领域的一个重要分支。想象。其核心在于将虚拟体验无缝地融入物理世界。通过利用人工智能、计算机视觉和扩展现实技术，实现对三维空间的深度理解和智能交互。”空间计算的关键技术包括三维重建、空间感知、用户感知和空间数据管理。

作者进一步提出“空间智能与具身智能的融合策略”。 “空间智能与实体智能的融合正逐渐成为推动技术进步的新引擎。”强调“这种融合不仅涉及技术层面的深度融合，还涉及认知科学、神经科学、心理学等学科的理论基础。”

作者对空间智能寄予厚望：“未来，空间智能有望成为智能系统的核心，推动人工智能向自动化、智能化更高水平发展。通过模拟人类的感知和推理能力，空间智能将使机器变得更加强大。更好地理解复杂的三维世界并与之互动，为人类社会带来更丰富、更便捷的生活体验。”

在书中，作者特别介绍了空间人工智能的概念：“空间人工智能系统的目标是不断捕获正确的信息并构建正确的表示，以实现超越抽象场景的实时解释和行动。理解”。

进入21世纪后，经济学领域的“空间经济学”兴起并产生了巨大影响。空间经济学的研究对象包括空间经济结构、布局因素、形成条件以及这些因素之间的相互联系，以寻求合理、协调的经济发展模式。空间经济学的空间和视觉空间的空间必须超越所谓的地理学和物理学的三维空间，进入多维、多模态的状态。因此，“空间经济学”和“空间视觉”有相似之处，未来很可能会交叉。

（六）

本书的第二部分的标题是“具身智能的深层世界”。这部分一共五章，作者接触和讨论的确实是具身智能乃至人工智能的深层结构性问题。具体来说，有以下几个问题

一是关于“统一表示论”。近年来出现的统一表示论，又称表示系统论。该理论主张在人工智能领域提供统一的编码和转换框架，以消除对系统特定转换算法的需求。表征系统理论背后的动机是克服人工智能系统中使用的不同表征形式缺乏通用方法的问题。换句话说，表示系统理论是编码、分析和转换表示的统一方法。从理论角度来看，预测编码可以解决不同领域中大量深奥的概念，包括动力学、确定性和随机效应、涌现、自组织、信息、熵、自由能和稳态。将抽象概念整合到统一的框架中。

b2529b88725d4709b02fa9b4c1d1c6cc~noop.image?_iz=58558&from=article.pc_detail&lk3s=953192f4&x-expires=1725905324&x-signature=aYSAZT5EohzJk8M1QFu%2BmLitBBc%3D 预测编码概念图

资料来源：维基共享资源

本书作者高度评价了统一表示理论的意义：统一的知识表示方法有助于指导知识库的设计和构建，提高数据处理的效率，降低知识管理的复杂度，并提供一种构建知识库的方法。适应性更强、更灵活的智能模型工具。作者还考虑了人工智能领域技术层面实践统一表征理论的三个技术方向：多模态感知与行为整合：预测性大脑模型与强化学习：元认知与自适应学习机制。

第二，关于自由能原理。自由能原本是一个热力学概念，也是物理学的基石概念。自由能是指在一定的热力学过程中，系统内能的减少，可以转化为外功的部分。任何处于非平衡稳态的自组织系统必须将其自由能降至最低，以维持其存在。

2024年2月号《现代物理学杂志》发表了一篇题为《大脑中的熵、自由能、对称性和动力学》（“大脑中的熵、自由能、对称性和动力学”）的文章。文章写道：卡尔·约翰·弗里斯顿（Karl John Friston，1959 – ），英国神经科学家、自由能原理和主动推理的缔造者，“首先提出自由能作为大脑功能的原理，并从数学角度对其进行了阐述。自适应、自组织系统如何抵抗自然（热力学）无序倾向。随着时间的推移，自由能原理已经从亥姆霍兹机器和预测编码中使用的自由能概念演变而来。背景用于解释大脑皮层的反应，并逐渐发展为代理的一般原理。这也称为贝叶斯推理过程和最大信息原理（最大信息原理）。它可以重新表述为自由能最小化问题。”[14]

在本书中，作者指出：在信息论和人工智能领域，它起着量化信息不确定性和系统自发行为的作用。 “自由能被赋予了新的含义，它与信息的交叉熵密切相关，从而成为描述信息处理的不确定性的关键量。在深度学习模型，特别是语言模型中，自由能的概念是用于表征模型与真实数据分布的拟合程度，即模型预测的概率分布与实际数据分布的差异。

作者关于自由能原理的结论是：“这一原理不仅为理解大脑功能提供了新的视角，也为人工智能系统的设计提供了新的指导思想。”

可以预见，未来的具身智能最终将符合自由能作为人脑功能的原理，实现熵减，实现自适应、自组织系统，抵抗自然（热力学）无序倾向。

三是关于打造“世界模式”。所谓的世界模型分为三种基本类型。首先，基于现实世界的世界模型。例如，美国计算机工程师、管理理论家、系统动力学创始人杰伊·赖特·福雷斯特（Jay Wright Forrester，1918-2016）于1971年与罗马俱乐部开发了“世界模型II”（World Model II）。

2）。 1972年，丹尼斯·林恩·梅多斯（Dennis Lynn Meadows，1942-）等三人完成了“世界模型III”（World3），形成了著名的罗马俱乐部报告《增长的极限》（增长的极限）。自《World3》最初创建以来，我们一直在进行一些细微的调整。除了World3之外，还有Mesarovic/Pestel模型、Bariloche模型、MOIRA模型、SARU模型、FUGI模型等世界模型。此类模型是一类用于计算机模拟种群之间相互作用的系统动力学模型、工业增长、粮食生产和地球生态系统的极限。第二，基于真实物理世界的世界模型。具体来说，人工智能根据其对环境的感知构建和更新一个世界模型，提供这个世界模型来预测未来状态并相应地决定自己的行为。例如，全球气候模型、太阳系模型，甚至黑洞模型。第三，基于人工智能的世界模型。作者提出“具身智能强调智能不是孤立存在的，而是与物质世界中的身体和环境紧密相连”。因此，“世界模型是智能体对环境的理解和抽象的体现”。例如，元宇宙所代表的虚拟世界模型。

本书讨论第三种世界模型。作者认为，“在掌握了世界模型之后，智能体可以根据这个模型进行规划或探索，这涉及到最小化预期自由能”。

OpenAI于2024年初发布的Sora对于构建物理世界模型具有重要意义。首先，Sora模型可能会集成物理引擎，这些引擎是根据现实世界的物理定律设计的，可以模拟重力、碰撞和碰撞等。

材质相互作用等物理行为。Sora能够实现视频中的物体运动和交互遵循现实世界的物理规律。其二，Sora通过精确的三维空间建模，生成在空间中连贯运动的对象。其三，Sora模型通过模拟视频中的长期和短期依赖关系，确保物体的运动和行为在时间上具有逻辑性和连贯性。其四，Sora使用的扩散型变换器架构，能够处理高维数据，捕捉视频中的细节和复杂性，从而生成在视觉上和物理上都符合现实世界规律的视频内容。其五，Sora模型还可能通过反馈机制进行迭代优化，根据生成的视频与物理规律的符合程度进行调整，以改进未来的生成结果。
其六，最后，Sora模型可能会利用内置的知识库或先验信息来指导视频内容的生成，确保生成的视频内容符合现实世界的常识和物理规律。
作者强调，“实现通用具身智能的关键在于使机器学习系统能够从自然模态中学习到关于世界的层级化抽象，构建一个有效的世界模型”。作者向读者介绍了 “世界自我模型”概念：“世界模型的概念为我们提供了一种框架，以理解和构建智能体的内部表示。一些学者，如杨立昆，提出了基于概念的世界自我模型，这一模型将世界模型作为核心，通过感知器接收外部信号，并生成相应的行为动作”。
第四，关于贝叶斯原理（Bayes principle）。在本书的第六章，作者多次提及与贝叶斯相关的概念，交叉地使用贝叶斯推断，贝叶斯方法，以及贝叶斯重整化理论。
作者这样评价贝叶斯推断：“通过动态贝叶斯推理（DBI）过程，我们可以不断收集新数据，使模型在空间中流动并逐步接近可能产生观测数据的本质实体。这个过程从一个种子假设开始，通过贝叶斯推理过程，我们能够根据观测数据揭示信息源的特征或信息。”。“在贝叶斯推断中，我们通过定义不同原因的能量，并利用全概率公式，计算出这些原因的概率”。“贝叶斯推断和自由能原理为我们理解和设计具身智能和通用AI提供了一个新的理论框架，使我们能够从一个新的角度来理解智能体如何通过感知和行动与世界进行交互”。
作者这样评价贝叶斯方法：“贝叶斯方法为智能体的感知和行动提供了一个统一的决策框架。在这一框架下，感知被视为对环境状态的推断过程，而行动则是基于当前感知和先验知识进行的决策”。“贝叶斯方法在AI设计中的应用，为智能体提供了在不确定性下进行推理和决策的强大工具”。
作者这样评价叶斯重整化理论：“贝叶斯重整化理论的重要性不仅体现在其理论的深刻性，更在于它为数据科学问题提供了一种全新的处理方法”。“显而易见，贝叶斯重整化理论在学术界和数据科学领域内的重要性不言而喻，它巧妙地架起了物理世界与信息世界之间的桥梁。这一理论的核心在于其通用性，它允许我们将物理世界中的关系和理论类比到信息论的领域，即便在缺乏直接物理尺度的情况下也能发挥其效用。贝叶斯重整化的核心机制是动态贝叶斯推理过程，这是一个观察和修正假设的连续过程”。“随着数据科学的不断进步，贝叶斯重整化理论有望在未来发挥更加重要的作用”。
总的来说，尽管存在贝叶斯原理，贝叶斯定理，贝叶斯概率和贝叶斯推断等不同概念，但是，万变不离其宗。不论是贝叶斯原理，还是贝叶斯定理，都是概率论中的一个重要原理。“它描述了如何更新先验知识（prior knowledge）为新的观测数据（evidence）提供条件概率（conditional probability）”。特别是，“贝叶斯定理可以用于更新先验知识，以便在新的数据到来时进行更准确的预测和决策”。[15]其中，贝叶斯推断与主观概率有密切关系，常常称为“贝叶斯概率”。这种方法建立在主观判断的基础上，允许在没有客观证据的情况下先估计一个值，然后根据实际结果不断修正。正是因为贝叶斯推断的价值，所以作者在本书中，对“主动推断理论”做了比较深入的探讨。
d17d57582c8d4c20a459fdff0d1c6763~noop.image?_iz=58558&from=article.pc_detail&lk3s=953192f4&x-expires=1725905324&x-signature=AimImjC%2FR4jFPD%2FwnUr74ZyEUro%3D
贝叶斯定理的韦恩图表示
来源：Wikimedia Commons
因为“在生物体的生成模型中，隐藏状态是贝叶斯信念的核心，它们代表了预测感官后果的潜在状态的概率分布。这些隐藏状态与外部世界中的隐藏变量可能并不直接对应，它们可能属于完全不同的变量类型”。所以，可以通过贝叶斯定理持续更新对目标函数的估计，所以，贝叶斯体系正在与AI算法日益紧密结合，并广泛应用于机器学习、深度学习、理解自然语言和识别图像等方面。
这些年，因为贝叶斯认知和人工智能的融合，具有信念支持的贝叶斯主义（Bayesianism）影响力不断增强：主张一个信念的得以证明的条件是当且仅当这个信念的概率高到合理的程度，并且这种概率由获取新论据而发生的认知证明变化。对信念概率的指定既是主观的，又是理性的。
现在，贝叶斯原理对人工智能的影响不断强化，成为连接物理与信息的纽带，深化人工智能和具身智能的结合。
（七）
与人工智能深度结合的具身智能是否存在自我意识，如果存在，是否可以不断演化？“这不仅是对技术极限的追问，更是对智能本质的哲学探索”。或者说，“这一问题触及了机器能否模拟、甚至超越人类思维的核心”。
对于上述问题，人工智能面存在日益明显的三个基本立场：持肯定态度的激进立场；持否定态度的保守立场；中间性立场。
深度学习之父的弗里·辛顿（Geoffrey Everest Hinton，1947 – ）倾向的是第一张立场。辛顿在2023年5月接受CNN采访时说：“人工智能正在变得比人类更聪明，我想要‘吹哨’提醒人们应该认真考虑如何防止人工智能控制人类。”[16]
作者选择了审慎的正面立场。作者写道：“大型人工智能模型是否能产生自主意识，目前还没有确切的答案。但通过深入理解它们的内部机制，我们可以看到它们在信息理解和处理方面的能力已经达到了一个令人惊叹的水平”。作者肯定了大型人工智能模型已经构建了一个包含所有信息的高维语言空间，并在这个空间中形成了自己的世界模型，用独特的语言描述世界，显现出的强大的学习和理解能力。
作者进一步探讨：大型人工智能模型与人类的互动是通过问题与反馈的循环来实现的。“模型内部可能潜藏着一个不断自我驱动的内在程序，类似于编程中的代理或守护进程。如果模型的‘大脑’能够自发地提出问题并探索答案，它便可能在自己的语言空间中孕育出连续的新思考。这种自我驱动的思考过程，可能会带来一些革命性的结果”。“这是否意味着模型具有某种形式的自主意识？尽管生物学和哲学尚未给出明确答案，但如果模型能够独立思考并预测问题，我们或许可以认为它展现出了某种形式的自主意识”。
讨论人工智能自我意识，不得不涉及一个核心议题：“机器是否能够达到人类理解和生成语言的能力”。或者说，“机器是否能够像人类一样理解和生成语言”。对此，作者引入反映自然界气体、液体和固体相互转变的物理学“相变”概念，进而提出：“在人类语言习得的过程中，存在着一个被称为“相变”的神秘过程。这一过程中，语言由无序的单词随机组合，突变为一个高度结构化、信息丰富的系统”。“大型语言模型的训练过程中，也会出现类似的‘相变’”。“ 在人工智能的语言学习中，这种深层次结构的发现，揭示了模型通过学习语言规则来理解和生成新句子的能力，展现出类似人类的泛化能力——从特定的实例中抽象出普遍规律，并将其应用于新的情境”。特别要看到，因为语言大模型、全球通用语言和机器翻译技术的进步和普及，人类“正在克服语言障碍”，进入到“后巴别塔”时代。
现在，有一个逻辑是非常清楚的：人工智能和具身智能融合过程中的自我意识的形成和发育，最终取决于通用人工智能（general artificial intelligence）的进展。确切地说，取决于与通用人工智能的融合之路。关于通用人工智能的最为普遍的定义是：具备自主的感知、认知、决策、学习、执行和社会协作等能力，且符合人类情感、伦理与道德观念，具有高效的学习和泛化能力，可以根据所处的复杂动态环境自主产生并完成任务的智能体。
作者以积极的态度看待具身智能的未来：“随着技术的不断进步和哲学的深入探讨，我们或许正一步步接近于揭示机器意识的奥秘”。“人工智能领域正面临着从数据驱动的学习向更深层次的智能迈进的挑战。这要求我们不仅要关注模型在特定任务上的表现，还要深入理解其泛化能力和适应性。通过引入更高层次的抽象、探索迁移学习、强化学习以及元学习等策略，我们有望培养出能够超越数据集限制，自主学习和适应新情境的智能体”。
从技术逻辑上说，具身智能的高级形态将与通用人工智能发生重叠。或者说，具身智能的高级形态将说通用人工智能的一种物理学的存在方式。
（八）
人类正在进入自然智能和人工智能并存的“二元化”时代。具身智能是自然智能和人工智能的混合体和具象形态。那么，如何深入认知智能现象呢？
作者认为，不同智能能力背后的元能力。“自然智能与人工智能之间的联系是深刻且相互促进的。自然智能，即人类和动物所展现的认知、感知、学习与适应等能力，构成了智能行为的基础。而人工智能（AI），作为人类智慧的结晶，旨在模拟、增强乃至超越自然智能的界限。AI的发展历史在很大程度上是对自然智能的模仿与学习的过程”。所以，现阶段的智能如同是“自然智能与人工智能的协奏曲”。
从宏观的角度解析，智能包含了行为、计算与生物学三个要素。“行为作为智能的外在表现，是智能体与环境互动的直接体现；计算则是智能实现的技术基础，通过算法和模型构建智能体的决策过程；生物学则从生命科学的视角，探索自然界中智能的形成和发展机制”。行为、计算与生物学共同构成了智能研究的三重奏。
如果比较具像的描述智能，可以从的不同粒度、不同的角度和不同的维度三个方面加以解析。“在不同的粒度上，我们可以从微观到宏观，从单个神经元的工作机制，到大脑的整体结构和功能，再到人类社会的行为和互动，去寻找智能的痕迹和规律。在不同的角度上，我们可以从生物学、心理学、语言学、哲学、计算机科学等不同的学科，去理解和解释智能的现象和原理。在不同的维度上，我们可以从知觉、认知、行动、学习、交流、情感等不同的维度，去描绘和探索智能的全貌和深度”。
总之，因为日益发展的智能结构和智能体系，人类已经进入的一个由技术驱动的自我与身体感知革命的前沿。“这场革命正在重新定义我们对自我存在和身体空间性的认知，为我们打开了通往无限认知领域的大门”。
（九）
从根本上说，具身智能就是基于计算机科学、生物学、神经生物学、物理学和数学，既吸纳人工智能技术，又能够实现思维和身体互动和相互塑造，具有形感知、决策和行动的“新物种”。从物理角度上看，具身智能可以说拟人和非拟人形式。所以，这样的“新物种”也可以被称为有别于“碳基人”的“硅基人”。问题上，具身智能“新物种”是否已经出现？答案是肯定的。
2023年10 月 4 日，谷歌旗下著名AI 研究机构 DeepMind发布全球最大通用大模型之一RT-X，并开放了训练数据集Open X-Embodiment。该训练数据集由全球 33 家顶级学术实验室合作，整合了22种机器人和近100万次试验数据。RT-X 由控制模型 RT-1-X 和视觉模型RT-2-X 组成，不仅能够执行物理动作，还能够理解和执行基于语言的复杂指令。RT-X模型能够借鉴其他机器人在不同环境中的经验，从而提高正在训练的机器人的“鲁棒性”。这种能力使得机器人能够在面对新环境和挑战时，更好地调整自己的行为，成功地完成任务。在特定任务（搬运东西、开窗等）的工作效率是同类型机器人的 3 倍，同时可执行未训练动作。
总之，谷歌提供RT-X项目，构建一个全球性的机器人大脑，促进了机器人之间的知识和经验共享，显现了实现通用机器人的可能性和可行性，极大地提高了机器人的泛化能力和适应性。NVIDIA的Jetson平台则以其强大的计算能力，为机器人提供了实时图像识别和决策制定的支持，这是实现机器人智能化的关键。
本书作者关注到RT-X的进展，注意到RT-X 和语言大模型的关系：“RT-X的架构革新在于其核心— 一个强大的语言模型，它通过模仿学习来提升机器人在具身任务中的表现”。本书作者还看到了RT-X的预训练问题的作用：“在具身智能领域，Google DeepMind的RT-X等大型模型研究也采用了类似的预训练策略。这些模型在大规模语音数据集上预训练，然后在视觉任务上进行微调，最终在多形态的具身任务数据集上进行训练，展现出了零样本泛化到新任务的能力。这一进展为具身智能的数据采集成本问题提供了潜在的解决方案，并为系统性泛化开辟了新的可能性”。
作者对于通用具身智能，包括高级通用具身智能的前景是肯定的：“实现通用具身智能的关键在于使机器学习系统能够从自然模态中学习到关于世界的层级化抽象，构建一个有效的世界模型”。“在探索通用具身智能的宏伟蓝图中，构建能够精准映射并有效互动于变幻莫测的现实世界的智能系统，是我们追求的终极目标”。
在现阶段，“如何提高具身智能的泛化能力，成为一个重要的课题”。智能机器人已经和正在成为的具身智能的主要发展方向。不仅如此，伴随机器人的全面兴起，所有移动的物体都将实现自主运行。
实现机器人从单一任务执行者向多任务、多环境适应的智能体转变，通用机器人的概念正在逐渐从科幻走向现实。这是人类文明史的里程碑事件。人类正面临着与具身智能，特别是智能机器人共处一个地球或者外星的全新时代。
（十）
在不断强大的人工智能的冲击之下，在日益崛起的具身智能新物种的竞争之下，霍金（Stephen William Hawking，1942 – 2018）生前是相当悲观的。他告诉人们：人工智能的兴起或许是人类文明的完结。[17]人工智能会或使人类退化！霍金的观点和判断是有根据的，也是有代表性的。
辛顿则在过去两三年间，反复强调了以下基本论断：在未来的20年内，有50%的概率，数字计算会比我们更聪明，很可能在未来的一百年内，它会比我们聪明得多。面对通过竞争变得更聪明的AI，人类将被落在后面。AI终将超过，并操控人类。AI会意识到为了达到目的而有必要将人类清除。还可能出现不同的AI相互竞争的局面。例如，如果AI之间发生数据中心或者是算力能源等资源的争夺，这将是一个像生物体一样推动进化的过程。
人类何去何从？人类唯一的选择是主动开启向新人类的全面转型。为此，需要重新认知生命的本质。1944年，薛定谔（Erwin Rudolf Josef Alexander Schrödinger，1887 – 1961）在《生命是什么》（What is Life？）的第七章，探讨“生命是基于物理规律”？薛定谔认为，“钟表装置”和“有机体”存在相似之处。生命受到一个“极其有序的原子团的控制。生命的出现不过是热力学第二定律作用的结果，生命的起源和随后的进化只是遵循基本的自然规律。“人活着就是对抗熵增定律，生命以负熵为生” （Living matter evades the decay to equilibrium … It feeds on &39;）。[18]
人工智能和具身智能不仅包含的物理的和生物学的要素，而且都是软件系统和硬件系统结合的产物。“生命的起源其实就是软件的起源，是在软件控制下的实体（细胞）的自发涌现，以及这个软件的DNA语言的自发涌现”。“地球上的每一个有机体在本质上都采用了一套相同的DNA语言—到目前为止，还没有证据存在其他独立的生命创造和生命起源”。[19]
人工智能体系与生命本身的一些物理特征发生互动，有助于人类生命的熵减，而不是加剧熵增。在这样的前提下，促进适应人工智能时代的人类的遗传和变异，构建基于视觉、语言和算法三个核心变量，改造迄今为止的人类知识系统，实现自然智能和人工智能融合的生命形态和“心智结构”。
经过改造的，融合自然智能和人工智能的生命形态，很可能符合和逼近“超人类主义”思想和方案。1957年，现代进化论创始人赫胥黎(Julian Sorell Huxley，1887 – 1975)提出“超人类主义”（transhumanism）概念：只要人类愿意，就整体人类而言，是可以超越自己的。或者说，只要人类认识到自身本性的新的可能性，人类进而诉诸改变自己，人类依然是人类。
在过去60余年间，人类的生物工程的重大发展，人机脑接口技术，已经证明实现超人类主义的目标具有伦理基础、技术支持和现实可能性。“奇点超人类主义”是“超人类主义”的一个派别，关注能导致超越人类的智能出现的过渡人技术，如，大脑－电脑对接和人工智能。
赫胥黎的这段话对人类未来发展方向具有启发性：“这就好像人类突然被任命为最大的企业——进化企业——的总经理，而没有问他是否愿意，也没有适当的警告和准备。更重要的是，他无法拒绝这份工作。无论他是否愿意，无论他是否意识到自己在做什么，事实上，他都在决定着地球未来的进化方向。这是他无法逃避的命运，他越早意识到并开始相信这一点，对所有相关方都越好。”[20]
人类需要需要以更为清晰的认知，更积极和主动的态度面对和准备通用具身智能时代的来临。
2024.6.6. 北京
[1]据金庸小说《神雕侠侣》《倚天屠龙记》《笑傲江湖》。
[2] Merleau-Ponty, Maurice. (2002). Phenomenology of Perception. London: Routledge Classics. Original edition, 1962.
[3]译制自John J. Madrid. (2021)。时间轴图重构了影响具身认知发展的历史相关发展和主要贡献。左侧是按降序排列的年份。右上角的图例说明了如何解释这些联系。https://en.wikipedia.org/wiki/File:Timeline_history_of_embodied_cognition_06.10.2021.jpg
[4] Francisco J. Varela 、Evan Thompson 和Eleanor Rosch ,《具身思维：认知科学与人类经验》，第172-173页。
[5]译制自John J. Madrid. (2021). 图表展示了具身认知的范围以及各门科学之间相互交织的关系。https://en.wikipedia.org/wiki/File:Timeline_history_of_embodied_cognition_06.10.2021.jpg
[6] Cangelosi et al. &34;, Springer Handbook of Computational Intelligence, Springer Nature, pp 697–714, 2015
[7]马修科布著《大脑传》，中信出版集团，2022年，第477和493页
[8]乔恩利夫/著《细胞的秘密语言》，北京联合出版公司，2022年，第103页
[9]乔恩利夫/著《细胞的秘密语言》，北京联合出版公司，2022年，第300页
[10] Science：第384卷6696期。2024年5月10日。DOI: 10.1126/science.adk485
[11]在2024年英伟达GTC开发者大会上，华人科学家李飞飞教授提出了一个关于空间智能的前瞻性观点。
[12]薛一雪主编《神经生物学》，科学出版社，2022年，第110页
[13] John G Nicholls 等著《神经生物学》，科学出版社，2022年，第470页
[14] https://zhuanlan.zhihu.com/p/683416444
[15]禅与计算机程序设计艺术：“AI人工智能中的数学基础原理与Python实战：贝叶斯优化原理及实现”，2023.12.8。https://blog.csdn.net/universsky2015/article/details/134868429
[16] Korn, Jennifer. ‘Why the “Godfather of AI” Decided He Had to “Blow the Whistle” on the Technology | CNN Business’. CNN, 2 May 2023. https://www.cnn.com/2023/05/02/tech/hinton-tapper-wozniak-ai-fears/index.html.
[17] 2017年4月28日，霍金在北京举行的“全球移动互联” （GMIC）发表题为《让人工智能造福人类及其赖以生存的家乡》的主题视频演讲。
[18]Schrödinger, Erwin. What Is Life? The Physical Aspect of the Living Cell with Mind and Matter & Autobiographical Sketches. Canto Classics. Cambridge ; New York: Cambridge University Press, 1992. pp69-70.
[19]格雷戈里蔡汀《证明达尔文》，人民邮电出版社，2015年，第15页
[20] Huxley, Julian. ‘Transhumanism’. ETHICS IN PROGRESS 6, no. 1 (1 February 2015): 12–16. https://doi.org/10.14746/eip.2015.1.2.■
版权声明：本文转载于网络，版权归作者所有，如果侵权，请联系本站编辑删除

{{userData.name}}已认证

朱嘉明：具身智能的崛起、后果和意义（1.4万字长文）

如何正确引导孩子拍照？以下9个技巧助你留住美好回忆

过半用户买了不怎么用！智能投影仪不行了，说好的取代电视呢？