
2026年的具身智能赛道,正处在一场极致的分裂与狂欢之中。
一边是资本的疯狂涌入:单月融资规模突破百亿,Pre-A轮企业拿下4.55亿美元融资,成立不足一年估值便跻身行业第一梯队;国家将其纳入“十五五”六大未来产业,全球首份具身智能基准测试标准正式落地,政策与资本形成双重共振。
另一边却是行业的冷峻现实:工信部数据显示,国内人形机器人整机企业已超140家,发布产品超330款,但能实现千台级量产交付的企业不足5家,能在工业产线完成3个月以上7×24小时稳定运行的模型,更是寥寥无几。
当谈论具身大模型时,我们到底在谈论什么?是AI下半场从数字世界走向物理世界的终极叙事,还是又一场被资本催熟的技术泡沫?这场狂欢的背后,到底哪些是真正的产业趋势,哪些是自欺欺人的概念幻觉?
正本清源
行业最大的认知误区,莫过于把具身大模型简单等同于“通用大模型+机器人本体”。
无数企业的叙事逻辑如出一辙:拿一套开源的通用大模型,接一个视觉识别模块,再套一个预设的机器人动作库,便对外宣称研发出了“端到端具身大模型”。这种玩法,本质上是给语言大模型装了一个远程遥控器,用数字世界的符号逻辑,去硬套物理世界的运行规则,从根上就走错了方向。
我们必须先厘清一个核心问题:具身大模型与通用大模型,从来不是同一物种,二者的底层逻辑有着本质鸿沟。
通用大模型是数字世界的原生智能,它的核心范式是“下一个token预测”,训练燃料是互联网上可无限复制的静态文本、图像数据,输出的是符号化的语言、图片与视频。它的运行环境是封闭的、确定的、无成本的,模型可以无成本地回溯、修正、迭代。
而具身大模型是物理世界的原生智能,它的核心范式是“下一个状态预测”,训练燃料只能来自真实物理世界中,带因果关系的、多模态的动作-反馈闭环数据。它的输出不是符号,而是连续的、可执行的、必须适配物理规则的动作序列;它的运行环境是开放的、不确定的、有极高成本的,一次动作失误,就可能导致设备损坏、产线停摆,甚至人员受伤,每一次试错都有真实的物理代价。
这种本质差异,决定了二者的技术路线从根源上就完全不同。2026年被行业称为“具身原生元年”,核心标志就是行业终于达成共识:真正的具身大模型,必须摒弃“大模型改装”的外挂思维,构建“感知-行动”紧耦合的原生闭环。
在“伪具身”的外挂架构里,认知与执行是完全分离的:视觉语言模型负责“看懂世界、下达指令”,外挂的动作头负责“翻译指令、控制电机”。这就像一个坐在监控室里的人,通过屏幕给远程的机器人发号施令,永远无法应对物理世界的实时变化。比如,AI目前完全无法通过语言,精准描述出拧螺丝需要的0.1牛米的力控精度,也无法预判地面摩擦力变化对行走步态的影响。
而在“真具身”的原生架构里,身体与环境不再是需要克服的干扰,而是智能本身的核心组成部分。智能不是来自语言模型的逻辑推理,而是从持续的物理交互中涌现:为了判断一个物体能否被抓稳,机器人会主动轻推物体感知重量与重心,而非仅仅依赖视觉识别;为了在不平的地面保持平衡,它会根据足底的力反馈实时调整步态,而非按照预设的轨迹机械执行。
这就是Demo与量产的核心分水岭:绝大多数企业所谓的具身大模型,只是用语言大模型给机器人做了一套“语音控制脚本”,永远只能在预设的场景里完成固定动作,一旦环境发生变化,便立刻失效。而真正的具身大模型,是让机器人拥有了对物理世界的“直觉”,能像人一样,在不确定的环境里,自主完成目标任务。
大浪淘沙
具身大模型赛道,永远不会出现百家争鸣的局面。
通用具身大模型的基座,有着极高的准入门槛:它需要全栈自研的技术能力,需要百亿级的持续研发投入,需要海量的真实世界数据闭环,需要经过规模化验证的工程化体系,需要成熟的商业化落地场景。这些条件,注定了最终能活下来的通用基座玩家,一定是极少数。
未来的行业格局,一定会呈现“基座寡头化,场景垂直化”的终局形态。
在通用基座层,只会剩下两类玩家。一类是华为、小鹏这样的全栈科技企业,它们的核心优势,不是单点的算法创新,而是全链路的生态闭环。它们有自研的AI芯片,有成熟的算力基础设施,有经过规模化验证的工程化能力,更重要的是,它们有海量的、持续更新的真实物理世界数据,这是具身大模型最核心的燃料,也是创业公司永远无法复刻的护城河。
另一类,是优必选、宇树科技这样深耕赛道多年的头部企业。它们在机器人领域深耕了近十年,踩过了所有工程化和商业化的坑,拥有完整的硬件本体研发能力,构建了完善的开源开发者生态,实现了万台级的累计交付,主导和参与了多项国家级行业标准的制定。它们对物理世界的理解,对机器人运动控制的积累,对场景落地的经验,是靠融资堆出来的新企业,在短时间内绝对无法超越的。
而剩下的绝大多数创业公司,最终只有两个结局。要么在资本退潮后,因为无法跑通商业闭环,无法形成核心竞争力,最终批量死亡,成为行业泡沫的注脚;要么放弃通用基座的幻想,转型做垂直场景的解决方案商,基于头部企业的通用基座,针对细分场景做适配、做定制、做服务,在细分赛道里找到自己的生存空间。
未来1-2年,一定会是具身大模型行业的洗牌期。资本的耐心是有限的,当融资的钱烧完,却拿不出规模化的订单,拿不出可盈利的商业模式,等待这些企业的,只会是无情的淘汰。行业的泡沫,会在这一轮洗牌中,快速出清。
结语
从元宇宙到AIGC,从大模型百团大战到具身智能热潮,过去几年,我们见证了太多AI风口的起起落落。
数字世界的狂欢,终究要面对物理世界的残酷。数字世界里,你可以用无限的算力、无限的数据,堆砌出完美的模型;但物理世界里,有重力,有摩擦力,有成本,有风险,有无数不可预测的变量,它不会为漂亮的Demo买单,不会为宏大的叙事买单,更不会为自欺欺人的概念幻觉买单。
它只会为稳定的、可落地的、能创造真实价值的技术付费。
具身大模型,是AI从数字世界走向物理世界的关键一跃,也是人工智能真正改变人类生产生活的终极方向。这场革命,注定是一场漫长的长跑,而不是一场短暂的冲刺。
最终能跑到终点的,一定不是那些最会讲故事的企业,而是那些真正理解物理世界的规则,耐得住寂寞,啃得下数据闭环、工程化、商业化这些硬骨头,真正为客户、为行业创造真实价值的企业。
毕竟,AI的终极使命,从来不是在屏幕里和人聊天,而是走进真实的世界,帮人解决真实的问题。
(文/米栏)
e-Mail:lab@enet16.com









加载中,请稍侯......