《长安的荔枝》这个故事,讲述了如何将易逝的鲜荔枝从岭南运送至长安,其中涉及保鲜、驿站、路线和补给等一系列相互关联的难题。清华大学人工智能学院助理教授李一鸣认为,这个故事与当前“世界模型”领域的发展有着异曲同工之妙。他指出,Physical AI(物理AI)所要解决的问题如同“鲜荔枝”,而实现这一目标则需要构建一套包含数据采集、模型研发和硬件部署的系统。
李一鸣在接受《智能涌现》采访时表示,“世界模型”的本质并非技术路线,而是要解决实际问题。他将其比喻为“一匹运送荔枝的马”,只有与其他环节协同配合,才能发挥价值。自2026年初回国后,他观察到国内AI领域存在对“世界模型”的普遍焦虑(FOMO)。
他认为,当前“世界模型”赛道概念混淆,估值泡沫较大,许多与仿真、物理相关的技术,如视频模型、3D模型或VLA(视觉-语言-行动)具身大脑,都试图归入“世界模型”的范畴。然而,李一鸣认为,相比于界定“世界模型”的定义,更重要的是构建一套能让机器人在不同场景下泛化的系统。
李一鸣团队近期提出了名为 Physical AI Infra 的解决方案,该方案由数据和物理双轮驱动,包含两个核心自研组件:
- 数据管线:旨在快速扩大数据采集规模,将行业平均水平的几十万小时提升至百万至千万小时。
- 物理引擎:实现“Real-to-Sim-Real”闭环,即基于真实世界数据构建仿真环境,用于机器人进行物理世界的强化学习,最终在真实世界执行任务。
“世界模型”在此系统中扮演着关键角色,贯穿于数据采集、模型预训练(作为目标)及后训练(作为仿真环境)等各个环节。该基础设施能够训练精细操作技能,并支持跨不同类型灵巧手和机械臂的部署,适用于生产制造、零售、酒店、餐饮和医疗辅助等多种场景。
基于这套技术方案,“厘清智能”公司应运而生。该公司由李一鸣团队支持,专注于Physical AI领域。成立仅两个月,厘清智能便已完成多轮融资。《智能涌现》独家获悉,其种子轮融资金额达到数亿元,投资方包括顺为资本、红杉中国、高瓴创投、峰瑞资本、星连资本、水木清华校友种子基金、SEE FUND等基金,以及智元机器人、灵心巧手、世纪金源等产业资本。
厘清智能的吸引力在于其稀缺性,一方面体现在软硬一体化的人才储备。李一鸣本人在空间感知、多模态推理、自动驾驶和具身智能等领域拥有丰富经验,曾与AMI Labs联合创始人谢赛宁合作研究具身视觉推理,并在CVPR和NeurIPS等顶级会议上发表了多篇论文,荣获2024年度英伟达奖学金。
其团队的50余名成员,大部分是清华大学的学生,平均年龄仅23岁。李一鸣强调,国内对软硬一体化人才的需求十分迫切,而清华大学提供了良好的人才平台。
另一方面,厘清智能选择了“重”的技术路线,即从数据采集、模型训练到物理引擎,实现全栈自研。这种模式在国内较为罕见,因为前期投入巨大且技术难度高,许多公司望而却步。但李一鸣认为,打通所有环节是确保信息流畅和协同优化的关键。
李一鸣的规划是,在今年年底前发布能够跨B端场景的世界模型,并计划在2028年实现解决方案的规模化应用。最终目标是为客户提供一套软硬一体的解决方案,跨越不同本体和场景,解决实际问题。
李一鸣在采访中阐述了其对Physical AI的看法,他认为Physical AI公司既不是本体公司,也不是单纯的模型公司,而是一套系统。其核心在于以解决实际问题为导向,将数据、模型、硬件和基础设施整合,构建一个能在实际场景中有效运行的系统。他强调,新一代的Physical AI团队应具备全栈能力,从数据采集设备到模型训练,全部自主研发。
他提出,新时代的具身公司应成为“World Model as Service”公司,最终交付给客户的是一套软硬一体的系统,能够根据落地场景和预算自动匹配最优硬件方案。Physical AI所需的人才画像是软硬一体,他认为目前这类人才非常稀缺,并表示团队会自行培养有潜力的年轻人。
李一鸣还指出,在Physical AI领域,不能只依赖数据采集而忽视物理规律。他认为,具身模型的参数量可能需要达到甚至超越语言模型。同时,他认为人类数据比真机数据更容易规模化,并已与多个场景方合作以快速积累数据。
他强调,仅靠数据采集不足以实现Physical AI的自主泛化,物理规律可以弥补数据的局限性。厘清智能设计了一套满足物理约束的世界模型方案,能够以少量真实数据校准世界模型,从而在虚拟环境中进行高效学习,例如机器人切苹果的例子。
关于“世界模型”的定义,李一鸣认为VLA、视频模型和JEPA(联合嵌入预测架构)并非“原生世界模型”。他指出,语言模型是离散的,与物理世界的适配性有限,语言本质上是交流工具,而非世界模态。世界模型的训练需要SFT(监督微调)和RL(强化学习)结合,并且必须遵守物理规律。
他定义“原生世界模型”是全栈打通感知、推理、决策、动作输出,并面向机器与世界交互任务设计的。其关键在于高效地将物理世界“Token化”(表征化),全球少数公司能够做到这一点。他认为,这项技术的壁垒在于认知和Know-How,而非单纯的技术。目前,他们团队的视觉tokenizer效果已优于Meta的DINOv3。
李一鸣还谈到构建Physical AI Infra的另一个难题,即设计物理引擎,使其能够高效建模和计算物理状态转移,从而支持机器人进行强化学习。他认为真正的Physical AI Infra能够提升数据效率,优化训练效果,并支持跨任务泛化。
展望未来,李一鸣预计2028年将是Physical AI规模化落地的里程碑。他认为,轮臂(带有轮子的机械臂)是适配多数操作场景的硬件形态,而人形机器人技术难度较大。他强调与场景方合作的重要性,并计划先从B端市场切入,如工业、物流、生活服务等场景,最终将B端积累的能力应用于C端。
他们的终极目标是打造一款通用的Physical AI Infra,成为一个基础平台,支持各类物理操作任务的规模化开发和部署,类似于iOS之于移动应用。这个“荔枝系统”的核心能力来自原生世界模型架构以及数据与物理双轮驱动的训练与评测基础设施。他预测,到2028年,数据采集规模和电机密度将实现飞跃,届时其解决方案将能够大规模落地。

