AI发展的终极模式是物理AI, 它不但得理解人的指令, 而且要理解物理世界的全部规律。
最近有个词在圈子里传得很热数据与物理竞赛,叫“物理AI”。
去年初,在拉斯维加斯的CES展会上, 这个词被黄仁勋在演讲时反复念叨了, 其念叨次数多达十多遍, 然而, 一直到今年, “AI”才迎来了具备真正意义的全面爆发。
那么,“物理AI”究竟是什么?
前两天, 彼时我目睹了一段视频, 视频展示的是机器人浇花, 机器人先是朝着水龙头前行, 随后拧开了阀门, 接着实现了将水壶充盈, 而后转身朝着花盆边走去, 又进行了角度的调整, 之后把水均匀地进行了浇灌, 在此过程中壶嘴并未碰到花盆边缘, 水也没有出现洒出之情形。
让一个机械产物领会“从旁边拿一杯水过来”, 它要清楚杯子是那种上下粗细一致的形状, 要算出需用多大的力气握住才不会滑落也不会破碎, 要晓得水是具有流动性的物质、晃动就会洒出来, 要在移动过程里随时调节手臂角度去抵消身体的晃动。
人类三岁小孩凭借直觉便能做到这些东西, 然而对于AI来讲, 这却是一个巨大的跨越, 在过去的十年间, AI学会了看, 学会了听, 学会了说话, 学会了画图, 可它始终被困在屏幕里, 物理AI所要做的事情, 是将这个聪明的大脑, 装进一个能够在真实世界里跑、跳、抓、放的躯体里。
简单来讲, 物理AI指的是使AI能够理解, 并且在物理世界发挥作用, 它并非只是处理文字以及图片, 而是要在重力、摩擦力、惯性都产生作用的环境当中, 做出正确的动作。
存在着这样一个事实, 此事实在国内较少有人去讨论, 即“AI”这样的一种提法,它并非是从某个芯片巨头那里的公关部门之中产生而来的。这个概念最初是在2020年的时候被看见的, 它是出现在一篇论文里面的, 这篇论文发表在了《 》之上。在这篇文中, 第一次运用系统的方式对AI进行了定义:
存在一类实体系统, 这类系统能够执行通常和智能生物体相关联的任务, 其核心在于将物理规律深度整合进人工智能系统, 使得机器不再是那种“物理盲”, 并且能够完成从接收到感知再到实现行动的这样一个闭环。
2020年的时候, 学术圈有一种声响, 类似枪响, 到了2026年呢, 整个产业界都开始全面接手跟进, 这期间可是整整间隔了六年之久。在这六年当中, 传感器的成本下降了好几个量级, 端侧的AI算力由理论层面朝着工程化的方向迈出步伐, 机器人本体的可靠性以及量产能力也不知不觉间逼近到临界点之上, 而这些层面的因素, 才是致使物理AI从论文领域迈向产线的那种隐匿起来的推动力量。
从演示到干活
倘若讲2023年的大规模语言模型致使AI学会了聊天, 那么2026年物理人工智能的关键词仅有一个: 干活。
事情的变化是肉眼可见的。
去年的这个时段, 机器人公司用以展示实力的途径乃是拍摄演示视频, 对场景予以设定, 进行反复排练, 达成一镜到底, 虽说呈现效果颇为美观, 然而你并不清楚它究竟拍摄了多少回。
然而今年呢, 玩法已然全然不一样了, 今年智元机器人于南昌的一条3C产线上做了一桩事儿, 把机器人投放进真实的工厂里, 持续进行了几个小时的劳作。并且全程进行了直播, 既没有预先设定的剧本, 也没有限定的场景, 正是工人们平日里所面对的那条产线。吸引了几十万人次在线围观。
在一个月之后, 智元于香港宣告人形机器人达成万台量产, 从实验室当中的一台原型机, 再到工厂产线之上的一万台, 翻过这个坎, 性质便发生了变化。
智元所走的路线极具趣味内涵, 众多机器人创业公司倾向于聚焦在特定的某个环节之上, 那些致力于制造 Robot本体的公司仅仅专注于本体制造的工作、那些着重于从事大模型研发与实践的公司仅仅将精力投入到大模型这一方面、那些专门从事灵巧手相关业务的公司仅仅围绕着手这一范畴展开工作。智元却选择了另外一条与众不同的道路, 即全方位的开展相关业务, 同时朝着本体制造、AI模型、灵巧操作以及数据采集这四个迥异的方向进行布局规划, 并且还对60多家处于产业链上下游位置的公司进行了投资行为。
这么做所带来的代价也是相当直观的, 母公司拥有一千多名员工, 截至今年年底预计会进一步突破人数,仅仅薪资方面一年就要耗费十几亿到二十亿。这条道路非常烧钱, 然而一旦成功打通, 所形成的壁垒也是最为深厚的。
智元的创始人邓泰华提及了一个名为“XYZ曲线”的分析框架, 他讲具身智能的发展存有三个阶段, X阶段是开发尝鲜期, 彼时大家仍在玩Demo, Y阶段是部署成长期, 这个时候机器人才开始真正进入产线干活, Z阶段是终局的智能涌现期。

他给公元二零二六年所做的定性为, “处于部署态的起始年份, 正式从具备行动能力迈向能够开展工作”。动词“能动”与形容词“能干”, 仅仅相差一个汉字, 然而所差的却是整个产业的成熟标志。
海外也在冲刺物业经理人,太平洋对岸的节奏一点不慢。
将美国人形机器人公司AI称作这条赛道上需要绕开却无法避开的名字。去年9月, 该公司完成了一轮融资, 融资金额超越10亿美元, 其估值达390亿美元, 在当时成为全球估值最高的人形机器人公司。
1米68身高, 差不多60公斤重, 一个月之后新一代产品03发布了, 演示了浇花、端菜、叠衣服这些家务活, 创始人Brett特意在社交媒体上补了句: 所有动作都是机器人自主完成的, 没有人在背后遥控。
需要留意的是在技术方面, 进行了一回重大的路线调整, 终止了合作, 并且全面转向了自行研发的神经网络系统Helix。
这套系统依据人类认知构建起三层结构, 最底层主要管控平衡以及本能反应, 中间层负责将大脑指令转化为每秒速度达到200次的电机控制, 最高层是逻辑大脑职责在于理解场景并进行决策。这个呈现“本能 - 反射 - 思考”态势的三层架构, 构思颇为巧妙, 类似于给机器人配备了一个不会出现宕机状况的神经系统。
还有一件事情是值得被提及的, 今年的时候, 英伟达在GTC大会之上宣布了一个行为动作, 这就是和全球四大工业机器人巨头进行了深度合作, 这四大巨头分别是ABB、库卡、安川、发那科。全球已经安装在产线上的数量超过200万台的工业机器人, 在以后借助英伟达的仿真平台能够进行虚拟调试以及AI训练。
这四家公司合起来, 占据了全球工业机器人市场份额的一半以上。在接下来的十年里, 这些机器人都将面临一次从“传统编程”到“AI驱动”的升级换代。未来, 要是哪个软件平台能够嵌入这个进程, 那就如同拿到了下一代工业自动化的“操作系统”层面。英伟达明显不想错过这张船票。
供应链的跨界抢跑
有这么一个现象, 它挺有意思的, 汽车供应链企业正朝着物理AI赛道, 以大规模的态势, 纷纷往里面涌进。
今年于北京举办的车展之上, 像安波福以及法雷奥, 还有地平线、千寻位置这些属于老牌的汽车供应商, 它们纷纷聚集在一起展示了与机器人相关的方案。在那个时候, 有不少处于业内的人士都认识到, 具身智能的感知和汽车智驾的感知是属于一样的这种情况, 汽车所拥有的解决方案能够直接运用到人形机器人上面。
细心琢磨一下, 真的是这样。汽车具备的智能驾驶系统, 从本质而言, 构成了一个类似“移动机器人”的, 包含感知、决策以及执行的完整循环体系。该体系里的视觉感知、路径规划、实时控制这三大模块, 跟传统工业机器人还有人形机器人在技术架构方面是高度同源的。
供应商手中的汽车摄像头, 还有雷达, 以及线控底盘和实时操作系统, 倘若稍微进行适配, 便能够迁移至机器人领域。从这个层面来讲, 过去十年汽车产业在智能化方面所投入的高达上千亿的研发费用, 正以“技术溢出”这种方式, 流入物理AI赛道。
这不无可能去解释为何中国的机器人公司能如此迅速地闯入量产进程之中。制造能力以及供应链管理并非是毫无缘由就凭空产生的, 其中诸多都是现成具备的。那些于汽车产线上历经十几年磨合的零部件供应商, 当下转换到了一个全新的战场之上。
国外存在着已经有的案例, 就以特斯拉当作例子来讲, 它的第一代人形机器人也正在加快速度进入市场。在此之前特斯拉于2026年第一季度财报电话会议上面确切地宣告, 公司会朝着“以AI、自动驾驶出租车以及人形机器人作为核心的未来进行转变”, 第一代机器人生产线将会有100万台产能实现下线, 并且替代现有的Model S和Model X的生产线。
数字100万台, 放置进如今的语境当中, 或许会显得夸张, 然而特斯拉的逻辑是明晰的, 它打算将在汽车制造领域所积累的大规模生产能力, 以及供应链管理经验, 直接复制到人形机器人领域。
他要的并非那种仅具备能够活动能力的机器人, 而是一台可以在工厂环境当中与人类共同协作开展作业的量产工具。一旦这条道路被成功打通, 那么它对于制造业自动化格局所形成的冲击, 其程度将不会亚于Model 3对燃油车市场所造成的冲击。
世界模型,为什么今年突然能用起来了
讲完产业层面大厂所做的动作了, 不妨将镜头朝着更深的层次拉近一些, 这场与物理相关的AI竞赛, 其技术的基础支撑是什么呢?
倘若要用一句话来进行概括, 那么便是: 世界模型的工程化实现突破。我认为这同样是领会这股浪潮最为关键的要点所在。
存有一个名为“世界模型”的概念, 它并非新鲜事物, 早在2018年期间就已被人提出, 其核心想法极为简单, 那便是要使AI学会一套针对物理世界运转规律的内部理解, 通过这种方式它便能够预测“要是我推这个杯子一下, 将会发生什么情况”。然而在以往的时候, 这一事物基本上仅仅存在于论文之中, 原因在于它太过耗费算力, 所得生成质量并不稳定, 无法进行实时交互。

在最近一年出现了转折, 英伟达推出了一个系列模型, 该系列模型有个特定名称, 其核心能力是, 能够从文字或者图像生成符合物理规律的动作数据。
比如说, 你打算训练一台机器人, 使其能够学会在各种各样的天气状况下搬运箱子, 而不必真的于雨天、雪天, 夜半时分前往工厂里面拍摄视频。在仿真环境之中设定好相应的参数过后, 便能够直接生成数量庞大的、极度逼真的训练数据, 这些数据覆盖了各种各样的极端场景。
今年年初的时候, 蚂蚁灵波团队对一个名为-World的框架进行了开源, 该框架特地是用来做交互式世界模型的。它能够达成近10分钟连续且稳定的视频生成, 将端到端交互延迟控制在了以秒为单位。用户能够如同打游戏那样, 借助键盘以及鼠标实时去控制虚拟角色, 模型会即时反馈场景发生的变化。其中这个意义是在于, 世界模型从“离线渲染”转变成为了“在线交互”, 训练效率提升到了一个量级。
有创业公司极佳视界发布了-1平台, 其定位是物理世界的“数字沙盒” , 一个月之后, 阿里巴巴的ABot-在一个被称作评测基准的上面超过了它, 综合排名冲到了第一, 竞争正以月为单位向前推进。
这些开源项目的重要之处, 并非在于参数有着多高, 而是在于它们将那种, 只有巨头才能够玩得起的游戏, 转变成为了小团队也能够上手去操作的工具。当制造轮子的人数量足够多的时候, 真正能够跑起来的车辆才会增多了。
物理AI时代里, 世界模型成了核心要件, 这是为何呢, 原来是它解答了那个一直搁置着没解决的难题: 怎样能够让机器人用低成本且高效率的办法去掌握物理世界的复杂规律?
真实世界里, 训练数据获取成本极为高昂, 并且天然存在分布偏差, 你要在现实当中凑齐全工厂暴雪夜班、物流仓库断电应急、产线工人突发介入等全部边缘场景, 是相当困难的。可是合成数据却能够做到。借助在仿真环境里用提示词去操控场景参数, 研究者能够在数小时之内生成涵盖极端条件的大规模训练视频, 然而这在传统实采路线之下, 是需要数月甚至数年时间才能够达成的。
这个突破的杠杆效应数据与物理竞赛,可能超过一切单一算法改进。
范式变了
其实世界模型的突破, 仅仅是物理AI技术栈进化的其中一部分, 底层技术发生变化, 正在对整个机器人行业的架构予以推动重建。
传统机器人运用的是“感知、规划、控制”三段式模式, 这种模式下, 首先是借由传感器去感知所处之环境, 接着由工程师撰写出相应规则告知机器如何就此规划路径, 最终执行相应动作, 当它处于工厂流水线这类结构化环境之中时并无问题, 然而一旦场景变得复杂便会暴露出短板, 机器仅仅会依照预设剧本行进, 一旦遭遇未曾见过的状况便会直接陷入停滞状态。
物理 AI 所走的路径与众不同, 是“感知、推理、执行”。 在感知完成之后, 并非经由人类预先设定好的规则, 而是依靠经过训练的神经网络自行推导出应当采取的行动, 随后加以执行。其本质性的差异在于, 前者属于“工程师代替机器进行思考”, 而后者则是“机器凭借自身去理解物理世界”。
今年, 国际机器人标准组织发布一份技术路线图, 这份技术路线图预测, 在未来的三年内, 百分之八十的新机型会采用这种名为新架构的东西, 传统三段式方案将会渐渐退出主流地位。这并非是那种小修小补的行为, 而是一整个范式的换轨。
就如同某位在业内颇具影响力的专家所讲的那样, 我认为其总结得相当精准到位, 物理AI乃是AI发展进程当中的终极模式, 原因在于它不但需要能够领会人的指令, 而且还得理解物理世界的全部规律。
黄仁勋讲机器人开发的时段已经来临, ”依我所见, 物理AI与语言模型的“时段”特性全然不一样, 语言模型的“那一时段”是使全球普通民众头一回亲自运用上了AI, 而物理AI的“那一时段”, 是让AI头一回切实开始工作。
如今, 这个赛道正处在一个相当特殊的阶段, 方向已然被锁定了, 概念也已经被认可了, 然而格局却还没有确定下来。
一则, 进行演示与开展量产属于两套全然不同的能力体系范畴。一台样机实现运行顺畅, 而一万台产品于真实场景之中所检验的是制造的一致性、供应链的韧性、场景的泛化能力以及运维体系, 这些方面和AI算法并无关联, 然而每一项都足以令一批玩家陷入困境。二则, 真实世界的数据采集存在成本高昂、周期漫长且覆盖面狭小的状况, 这几乎注定了物理AI的大规模训练会严重依赖合成数据。
与此同时, 在汽车供应链领域, 在传统工业自动化范畴, 以及在消费电子代工方面, 这些看似与“AI”关联不大的行业, 正经由技术溢出这一方式, 加速切入物理AI。它们所具备的制造能力, 它们所拥有的供应链管理经验, 还有它们所占据的场景资源, 有可能是决定物理AI落地速度的关键变量。
有一种直觉性的判断, 那就是, 你瞧, 在2023年初所引爆的那一波AI浪潮当中, 真正获取到最多价值的并非模型厂商, 而是基础设施提供商。物理AI这样的一波浪潮究竟会不会再次上演相同的剧情呢?
英伟达所做的布局, 意味着它正朝着这个方向进行押注, 然而故事尚未结束, 2026年是部署状态的元年, 产业间的竞争此刻才刚刚打响, 三年之后再回首今日, 哪些名字仍在竞争牌局之中, 哪些已然被淘汰出局, 或许会让大多数人的预期大失所望。
