极佳科技朱政:为机器人构建“世界观”
人类大脑的海马体有一个负责构建世界模型的区域,它能洞悉物理规律,对即将发生的事情做出预判。机器人也需要一个类似的“构造”。
责任编辑:黄金萍
2025年年末,人工智能(AI)正经历一场范式转变。
Meta首席科学家、图灵奖得主杨立昆(Yann LeCun)离职创业,“AI教母”李飞飞发表万字长文From Words to Worlds: Spatial Intelligence is AI’s Next Frontier,直击大语言模型在理解物理世界方面的孱弱,其创业公司World Labs发布首个能生成“3D可导航世界”的AI模型Marble。他们都转向了——世界模型。
在中国,朱政和他参与创立的极佳科技从2023年年中已经在All in这件事了。
到底什么是世界模型?
在朱政看来,其本质是一种预测能力,它能让AI知道,某一动作将给环境带来怎样的改变,这也更接近人类大脑的机制。他举了一个有趣的例子:职业棒球运动员能在零点零几秒内接住高速飞过来的球,但如此短暂的时间其实不足以让视觉信号传递到大脑皮层,这一动作的完成,得益于人类大脑海马体有一个负责构建世界模型的区域,它能洞悉物理规律,对即将发生的事情做出预判。
随着AI从数字世界进入物理世界,这种预测能力日益重要,比如自动驾驶、机器人,都需要世界模型的助力,也在推着世界模型的研究往前走。
这也一直是朱政的兴趣所在。早在于中国科学院自动化研究所与清华大学从事科研和学习时,他就在“教”汽车和机器人理解世界,他开发的BEVDet算法被多家车企采用,在KITTI、nuScenes等榜单排名第一。他本人也已经连续第四年入选斯坦福大学的“全球前2%顶尖科学家榜单”。
但创业是一个新课题,他必须走出舒适圈,在研究的前瞻性、工程的可行性、商业化的残酷性之间寻找巧妙的平衡。
所幸,极佳科技在两年多时间里取得不错的进展,朱政主导开发的自动驾驶世界模型DriveDreamer已进入中国20家主流车企和自动驾驶公司的方案;借助世界模型训练的GigaBrain-0也让机器人任务成功率提升了50%。就在最近三个月,极佳科技紧锣密鼓地完成了4笔A轮系列融资,累计募资5亿元,投资人包括达晨财智、华控基金、华为哈勃等。

2024年11月28日,北京极佳视界科技有限公司联合创始人、首席科学家朱政在南方周末科创大会上演讲,并获评南方周末2025年度科创力人物。
硬科技创业,研究、工程、商业化缺一不可
南方周末:你是CV(计算机视觉)出身,随后转向世界模型,从以“感知-分割-识别”为核心的CV到以“预测-生成”为核心的世界模型,有哪些挑战?
朱政:在大模型爆火之前,CV领域就有很多生成工作,包括GAN和Diffusion,这也是现在世界模型的核心。我也做很多相关工作,比如用扩散模型解决单目深度估计的感知问题、数字人
登录后获取更多权限
校对:赵立宇