Susan STEM avatar

Susan STEM

@feltanimalworld

从高熵现象中提取可调度结构,是理解的起点;结构压缩先于原理揭示。

Demis Hassabis 曾在多个场合强调一个极具颠覆性的观点:自然界不是混沌无序的,而是由深层的结构性机制驱动,而这些结构既可以通过物理方程来刻画,也可以被神经网络通过大量感知数据所“压缩式习得”。这一观点在 DeepMind 的视频生成模型 Veo 中得到了生动体现。Veo 能够生成诸如“汽车驶过积水”“刀切水果飞溅”的高真实感视频场景,所展现出的物理反馈之细腻,远超传统基于流体力学方程的游戏物理引擎。更令人惊讶的是,这些效果不是靠预设规则,而是通过学习海量 YouTube 视频中的结构性动态,逐帧地“看懂”了物体如何在物理世界中运动与交互。

也就是说,Veo 并没有学习“水的粘度”或“牛顿第二定律”,它只是通过观察足够多的“水如何动”的数据,成功建构了一个结构压缩后的运动预测模型。在实践中,这种模型已经能够精准预测下一帧水花会如何飞溅、玻璃如何碎裂、光线如何反射。从技术效果来看,它确实达到甚至超越了人类物理程序员的手工建模能力。

那么问题来了:如果一个模型可以毫不依赖方程地精准预测“下一秒会发生什么”,那它算不算真正“理解了物理”?这个问题既是工程问题,也是哲学问题。

从预测能力的层面看,它具备了高度拟真的“物理感”,能生成“看起来就是真实发生的”运动轨迹;但从抽象建模与解释能力的层面看,它尚未掌握“变量”“守恒律”或“因果链条”等可以迁移和泛化的知识结构。也就是说,它理解的是“水如何动的表现层结构”,而非“水为何如此运动的机制层逻辑”。Demis 认为这正是迈向通用智能的关键路径之一——先压缩世界,再抽象结构;先形成世界模型,再追问其成因。

这使我们必须重新思考“理解”的定义。Veo 不知道水是由分子组成的流体,也不知道动量守恒定律,但它比大多数人都“知道水下一秒会去哪儿”。这是否意味着“理解物理”不一定需要知道方程,而可以从大量现象中提炼出一套“可预测性极强的结构”?Veo 实际上已经在完成一种“现象压缩式理解”——在高熵视频流中提取可调度的结构压痕,并通过它们触发系统性行为反馈。

这种路径甚至可能颠覆我们对整个理科认知的传统认定。我们习惯以为理解=先有模型、再去解释、再做预测。但现在AI的学习路径却反过来了:先靠数据拟合出一个可用的预测系统,再逐步从中抽象出模型。这与许多人类科学家早期的认知路径更为相似——我们不是先懂了流体力学再看水花,而是看水花多了,才总结出流体力学。

于是我们开始意识到,理解也许不是一种“先知性”的能力,而是一种“压缩-预测-反馈”的过程。AI对物理的“理解”并不是终点,但它已经构建起“结构理解”的前提条件:在现象中看见结构,在结构中逼近机制。

这就是为什么说:AI 不懂水是什么,但它知道水怎么动。而这份“知道怎么动”的能力,正在重新定义“理解”本身的边界。而我们才刚刚站在这场认知革命的起点。

刚用Veo生成了个泰迪熊,我看要不要买几个月玩玩。

(2/n)
Partager
Explorer

TweetCloner

TweetCloner est un outil créatif pour X/Twitter qui vous permet de cloner n'importe quel tweet ou fil de discussion, de le traduire et de le remixer en un nouveau contenu, et de le republier en quelques secondes.

© 2024 TweetCloner Tous droits réservés.