朱政:世界模型让机器人在物理世界学会预测丨2025科创大会
2025年11月28日,由南方周末主办的第五届科创大会于上海举办,探寻科创在不同行业、企业的发展脉络,为中国经济和社会发展提供动能。“科创大会”创立于2021年,隶属于南方周末年度盛典系列活动,每年发布年度科创力评价榜单与前瞻科创研究、汇集业内专家观点、揭示企业科创风向。在大会现场,极佳科技联合创始人、首席科学家朱政以《世界模型驱动的通用物理智能》为主题发表演讲。
以下为演讲实录,略有删节(本文标题、小标题为编者所加):

朱政 极佳科技联合创始人、首席科学家
现在中美竞争的焦点在于两点:一是语言模型,二是物理世界AI的竞争。
ChatGPT时代后,我们已经进入了数字AI的竞争。这方面,可能是美国走在前面一点,而我们处于追赶的状态。当然,今年,情况已经有了很大改变,DeepSeek的出现、阿里千问模型的出现,通过开源后来居上的方式,中国模型已经追赶上美国的闭源模型。
而在物理世界的竞争则主要是两方面:自动驾驶和具身智能。
今年,我在上海参加WAIC,发现有很多中国本体公司参会,我数了一下,现场有将近一百家,这在美国是不可想象的。中国的制造业场景优势,为具身智能机器人发展提供了非常好的条件。这也是我们第一次和美国站在同一起跑线进行前沿科技的竞争。
什么是世界模型
人工智能的发展历史是一个从封闭域走向开放域的过程,封闭域比如Alphago或者Deepmind进行蛋白质折叠的探索,其规则是确定的,奖励函数也是确定的;而开放域则包括语言模型的预训练、后训练和推理,图像和视频的生成。
如果把语言模型看成是一维的信号,那么图像和视频可以看成是2D和2.5D的信号,3D空间加上时间就是4D的信号,这就是物理智能探索的对象。物理智能关注的正是对4D物理世界的理解、生成、常识和推理,最终实现4D空间中的交互和行动。
我们目前已经实现了语言对话,但仅仅依靠语言,不能涵盖所有感知决策。所以接下来是2D智能,对互联网或真实物理世界出现的图像和视频进行感知、推理和决策;最终要通往4D世界。物理智能是除语言智能以外第二条通往通用智能的技术路径。
在物理智能领域,今年最热的词就是“世界模型”。
究竟什么是世界模型?在这里我们认为它是预测模型,目的是合理预测一个系统和事物在特定动作下的演变。所谓的“特定动作”在不同语境下有不同的指代,在常见的Sora视频生成模型里面,特定动作是文本;在自动驾驶里面,可能是方向盘的转角和油门的加减速;在具身智能机器人领域,可能是关节和末端执行器的位置。
为什么我们要发展世界模型?这主要是参考了人类学习的方式,人类会使用有限感官,包括视觉、触觉、嗅觉来感知世界,但是仅仅通过实时的感知,不足以让人类在世界中进行交互和躲避危险,还需要通过这些感知建内部简化的世界模型。
比如说,一个司机在开车时,除了会实时感知各种交通状况,还要预判可能出现的危险,看到一名行人站在十字路口,是需要做出避让,还是认为行人会等待车过去以后横穿马路。
再比如,职业的棒球运动员能够在零点零几秒内接到高速飞来的棒球,但其实这时候我们的视觉信号还没有从视网膜传到大脑皮层,这一动作的完成得益于人类大脑内部海马体有一个区域负责构建世界模型,它有一种预测能力,对即将出现的行为或者是危险做出预判。
机器人会实现汽车的价格、手机的销量
图灵奖得主Lecun认为我们的自主智能构架包括Configurator、Perception Module、World Model、Short-Term Memory Module、Cost Module、Actor Module。世界模型是连接其他模块最重要的桥梁,我们构建世界模型的目的是将数据涉及的世界规律转变为知识。
目前,通用智能都在走向端到端,端到端需要解决数据问题。
世界模型出现之前,机器人的数据可以通过仿真、遥操等方式获取,但这些方式都有自己的缺点,仿真数据缺乏真实度,遥操数据成本非常高,互联网数据corner case少、效率低,用它们做预训练无法收到很好的效果。而世界模型做这件事,可以总结为4个字:多、快、好、省。“多”是可以规模化生成,因为可以用GPU并行的方式;“快”就是不再受时间的限制;“好”是生成非常多的corner case;“省”就是相比实采成本低。
我们将世界模型数据定义为仿真2.0,发现真机数据和仿真1.0数据只能以线性速度增长,且上限比较低,而世界模型数据的曲线虽然起点低但是斜率高,上限高。
特别是最近两年,VLA模型兴起以后,我们需要上万小时的数据来做训练,极佳科技将其中一部分真实数据由世界模型数据代替,我们称之为第2.5代的VLA世界模型,也是GigaBrain-0的原型。我们只用了10%的真机数据,剩下90%都是世界模型产生的数据,相当于把数据采集的成本下降了一个数量级。
现在,我们的模型驱动的机器人可以一镜到底完成从洗衣机里拿出衣服,然后进行搬运和折叠。而且,在训练时机器人其实只见过平整的衣服,但是实际叠衣服时它遇到不平整的衣服会先抖动再折叠,这也意味着,它已经出现了一些涌现能力。
现阶段我们认为,具身智能一定要软硬件协同设计、共同进化。因此,极佳科技也做了轮式双臂式机器人,移动起来稳定性好,比足式机器人简单。我们不靠人工操作,只依靠模型推理就可以在家庭里完成常见的任务,仅靠视觉就可以完成抓碗拿盘子、收拾桌面和叠抹布。
总结一句,通用智能的人形机器人将是人类历史上最大规模的产品,我认为它是智能时代的真正开端。未来,它会实现汽车的价格、手机的销量。
• 更多关于科创大会的精彩资讯,将通过南方周末各渠道陆续发布,敬请关注。