具身智能机器人的空间适配与生态破局-吴伯凡的专栏

具身智能机器人的空间适配与生态破局

2025-08-27 17:39:30栏目：默认栏目 IP属地：IP未知

观点摘录：

具身的核心是身体与空间的深度绑定，智能由空间特性、身体与空间的互动共同决定，人类工具进化史本质是不断打造可控空间（steerable space），让空间及其中物体被具身主导。

当下机器人研发陷入“只有大脑没有小脑”的瓶颈。算法能处理复杂数据，却难做好基础动作。具身智能落地需要扎根工人、劳动人民的“下里巴人智慧”。

具身智能与传统ICT技术核心逻辑不同。传统ICT是数据驱动，具身智能是场景驱动+身体响应。巨头也难以靠资源、技术复制替代，先发者守好身体能力+场景适配就可以占据主动。

真正的生态，就是一种谦卑之心，没有任何一方是绝对的主宰，每个参与者都是生态的共建者。产业生态关键是成为“关键物种”。智元类企业需内外兼修，对内筑核心技术壁垒，对外开放且明确不可共享部分，打造内外相通、有别的协作模式。

对布局具身智能的企业来说，越是深入研发，越要保持谨慎与谦卑，这不是技术上的妥协，而是对复杂问题的清醒认知。

具身智能的难，本质是我们在试图复刻大自然最精妙的“本能智能”。机器人需要把人类的“本能感知”拆解成无数个技术节点。

具身智能领域存在先行者困境。走在最前面的探索者，要在未知领域反复试错，承担高额的研发成本。后面的企业能借鉴前者的经验，更清晰地避开弯路。不过这并不意味着先发者吃亏，关键在于能否在试错中沉淀出不可替代的核心能力。

发言内容：

什么是“具身”？核心就是身体与空间的深度绑定。就像蝙蝠的体型和超声波的感知，它不能用视觉，这不是随机进化的结果，而是为了适配它所处的黑暗飞行的空间。就像蜻蜓高灵敏度的复眼、单眼以及高速振翅，这使它可以对低空穿梭空间精准的响应。就像神话里孙悟空的72变，本质也是通过切换具身状态调整与空间的关系，从而让它自由度最大化。这里有一个古老的词steerable space。说的就是具身智能关键在于自身由空间定，智能不是孤立存在的，而是由空间特性、身体与空间的互动共同决定的。从手推车拓展地面移动范围，到火箭突破大气层、无人机穿梭楼宇，人类工具的进化史，本质就是不断打造可控空间（steerable space），让空间和其中的物体，都能被具身主导。

但是当下机器人的研发却陷入一个瓶颈：像在跟“只有大脑没有小脑”的霍金协作，算法（大脑）能处理复杂数据，却练不好打包、叠被子这类基础的动作。人们总在96%的大脑能力上投入过多，却忽略了那4%或6%的身体能力。就像电影里描绘的末日洪水中的场景，当危机来临的时侯，全世界的人都会争相涌向青藏高原这片不起眼的高地，在具身智能领域，被忽视的身体能力会成为未来的核心争夺点。过去我们信奉“劳心者治人，劳力者治于人”，不屑于关注工人、劳动人民的“下里巴人智慧”，如今具身智能要落地，恰恰要扎根这些“接地气”的能力。机器人如何精准打包快递、如何把被子叠得整齐，这些看似琐碎的场景动作，正是突破技术瓶颈的关键。更关键的是，具身智能与传统ICT技术已经完全不同了，虽然同处数字时代，都依赖数字技术，但一旦涉及真实场景与物理空间，核心逻辑就变了。传统ICT是数据驱动，而具身智能是场景驱动+身体响应。这种差异，决定了具身智能的新市场不会被巨头轻易抢占。很多人担心大厂下场就会收割市场，但回顾20世纪下半叶的科技史，从没有哪个场景化新市场是靠资源、技术储备就能抄近路拿下的。微软做手机的失败就是典型的例子。它有系统技术、品牌优势，却没能适配手机端的场景需求，最终难敌先发者的场景粘性。具身智能的市场是生长型的，它需要企业深入打磨每一个具体场景的身体协作能力，这种扎根场景的积累，不是巨头靠征用技术、复制模式就能替代的。先发者只要守住身体能力+场景适配的核心，就能在市场增长中占据主动。

十几年前，“半成品时代”的概念就被提及了，要理解它，就得先看清工业时代的成品思维。诺基亚手机就是最典型的例子。它不仅能满足打电话的核心需求，甚至因为机身坚固，被拍成了“能砸晕抢劫犯”的广告。背后的逻辑很明确，厂商试图包揽所有场景想象，把产品做成一次性交付的完整解决方案，好似只要造出这台手机，就能覆盖用户的所有使用可能。但是2007年iPhone的出现，彻底打破了这种模式，正式拉开了“半成品时代”的序幕。苹果从不宣称自己交付了最终产品，而是提供了一个开放的半成品平台，用户可根据需求下载APP、自定义设置，第三方开发者能基于系统开发各类应用，厂商持续通过系统更新优化体验。三者形成一个动态循环，让手机在持续再定义、再完成中，不断适配更多元的场景，这才是半成品时代的核心。

我们老在讲生态，但大多数的尝试都陷入了“伪生态”的误区。当年很多公司都高举生态大旗，但逻辑本质就是“我来坐庄，大家来陪我玩儿”。以自身为绝对核心，要求合作伙伴围绕自己的规则运转，看似整合了资源，实则是单向的资源收割，毫无协同可言。真正的生态，就是一种谦卑之心，没有任何一方是绝对的主宰，每个参与者都是生态的共建者。就像自然生态系统，每种生物都有不可替代的价值。而在产业生态里，关键不在于掌控全局，而在于成为关键物种。不必覆盖所有环节，但要在某个领域具备独特价值，能为生态提供不可替代的支撑，从而在协作中占据主动。这一点，对智元这类深耕具身智能的企业尤为重要。不能奢望像微软当年的操作系统那样，靠单一技术覆盖全球市场，而应秉持内外兼修的思维，对内要筑牢核心技术壁垒，守住不可替代的竞争力。对外要保持开放，打造内外相通、内外有别的协作模式。比如核心的技术，既要保留可共享的接口，让合作伙伴能接入共创，也要明确不可共享的核心数据与技术，避免核心能力流失。这才是在半成品时代构建真生态的关键。

具身智能的研发难度，吴伯凡的判断是：它远比我们想象中更具挑战性，甚至可能陷入“反摩尔定律”的桎梏。摩尔定律是18个月性能翻倍、成本减半，但反摩尔定律下，最早见于医学领域，是性能提升四分之一，成本可能就要翻倍。具身智能研发也是如此，你以为完成了90%，剩下的10%可能要花掉之前90%的时间和成本，越逼近核心突破点，进度就会越缓慢，投入与产出的天平就会持续向高成本端倾斜。一步之遥，可能成本最多，甚至是在及其微小的细节方面功亏一篑。所以对布局具身智能的企业来说，越是深入研发，越要保持谨慎与谦卑，这不是技术上的妥协，而是对复杂问题的清醒认知。

具身智能的难，本质是我们在试图复刻大自然最精妙的“本能智能”。就像人类走到洞口，无需复杂仪器，仅靠感知微弱的气流，就能瞬间判断洞的深浅与是否贯通，伸手试探时，仅凭身体传来的压迫感，就能知晓洞口宽度是否适合自己进入。整个过程没有复杂的计算，全是身体与空间的即时互动。可就是这种瞬间完成的判断，对机器人来说却是巨大的挑战。它需要把人类的“本能感知”拆解成无数个技术节点，从力反馈、环境感知到决策响应，每一个环节都要精准适配，否则就是失之毫厘，谬以千里。

去年我考察过不少人形智能机器人企业，对比下来，智元的研发思路确实清晰。但也要看到，具身智能领域存在先行者困境。走在最前面的探索者，往往要在未知领域反复试错，承担高额的研发成本。反而后面的企业能借鉴前者的经验，更清晰地避开弯路。不过这并不意味着先发者吃亏，关键在于能否在试错中沉淀出不可替代的核心能力。