“王者归来”之后谷歌再下重注：世界模型将迎来“ChatGPT时刻”

　　▌让AI“读懂”世界，还是“看懂”世界？

　　当下，这种对“世界模型”的追求正迅速在硅谷研究一线中蔓延。

　　Meta公司首席人工智能科学家、图灵奖得主杨立昆(Yann LeCun)在本周三正式官宣，将于年底从Meta离职。他计划创立一家专注于“世界模型”技术的初创公司，该技术旨在突破网络数据的局限，通过分析更广泛的信息来更准确地呈现物理世界及其特性。

　　AI教母李飞飞同样也是世界模型的拥趸，其创业公司WorldLabs在一周前推出了首款产品Marble，由多模态世界模型驱动，这个被其称为“构建空间智能未来的基础”的产品，能从一张图片、一段视频或一句话中构建持久的3D世界。

　　英伟达此前也已推出世界基础模型开发平台Cosmos，可以帮助开发者直接生成合成数据，用于自动驾驶和机器人研究训练中。

　　从本质上来说，这背后触及的是AI最核心、最本质的分歧——想实现真正的AGI，是应该让AI通过文字“读懂”世界，还是让AI“看懂”世界？

　　“读懂派”代表如OpenAI，认为只要堆砌的数据资料足够多，智能就能自动涌现；“看懂派”则认为大语言模型充其量只是一个强大的文本数据库，记住了海量文本，却完全不理解文本背后的物理世界。用李飞飞的话来说，世界模型能让“看见”晋升为“推理”，让“感知”转化为“行动”，让“想象”落地为“创造”。

　　必须承认的是，与“读懂派”交出的ChatGPT、Sora等已引发全球轰动的模型相比，世界模型领域目前确实缺乏现象级消费产品，谷歌的Genie几乎是唯一表现惊艳的案例。在这种情况下，这条路难免面临“雷声大、雨点小”的质疑声，甚至被部分舆论判定为“皇帝的新衣”。

　　但这是否意味着世界模型前途黯淡？下结论还为时过早。

　　大语言模型的成功，某种程度上建立在海量公开文本和代码的“喂食”上；而构建一个能理解并推演物理规律的世界模型，底层挑战无疑更为艰深。这项技术仍处于初期爬坡阶段，它需要的或许不是即刻的喝彩，而是更多一些的耐心与时间。