Sora与机器人: elephant don't play chess
这件事情的意义不在于是否跟真实的世界有误差,而在于它能学出来。其实在人工智能领域一直有一个哲学问题也是困扰机器人研究的问题:elephantdont'playchess。直译就是大象不玩国际象棋。这个问题萁实是在质颖我们符号知识对于智能体的必要性。
1比较对于大肴来说,他会牛顿力学吗?他会流体力学的斯托克方程吗?应是不会的。
2 但是大像能走路能喝水吗?2能。
3 但是我们的机器人会牛力学,会流体力学方程吗?会。
3但是机器人会走路会喝水吗?不会。
4所以做机器人需要牛顿力学跟游体方程吗?可能真的不需要。
1运动估计与理解世界
很多人对于Sora的理解是,说一句话,生成一部大片。但是在本质上,Sora的工能是可以分成二步走的。
1)说一句说生成一张图
2)让一张图动起来。对于目前的人工智能而言。
1)是己经解决的。Sora的主要工作是第二点,让一张图动起来。也就是图像中的所有想像会如何运动跟就跟变化。
当给一张图之后A,可以生成任何一张新图B。但是从A到B的变化多T数其实都是不真实的。只有极少数的是真实的。所以真实的运动T是图像的所有可能的是极小的。简单的说,数据是可以压缩的。而这个压它在后的空间,就是所谓的latentspace。
这么说会很抽像。一例子,比如有一个图像上画了一个球。图像是128X128个像素,每个像素。。A那么如查要让这个球动起来。它有许多种情况。B,以B的变化也是128X128X256种情况。但是多数情况,T生成的图像B是不合理的。比如。球变消失,或是球从右边空然到了在边(运动不连续)。在真实世界中,因为受物理的约速,这个球运动起来扣,球还是不,它的位置是连续的。因此,一个球的图像的变化是可以用三个数,dR,dX,dy来表示的。也就球的大小,变化,跟球的移动。这样有三个数就够了。我们看到的图像就是数据空间,而dR,dx,dy就是latentspace。所谓的机器学习就是根所各种视频图像 128X128X8,知道数据可以用dx,dy,dR表示。
球这个例子比较简单。在真实世界中,隐空间有多大,以及物体的运动规笋要更加复杂。但是,不论怎样。latentspace都是要比视觉空间小得多。但是不论是有多复杂的规律,只要有归覣,它就可以进行数据压穹。当然如何学出来,需要复杂的机器学习与算法。但是,原理并不复杂。对于简单的数据,以及简单的运动规划。简单的机器学习方法就可以实现。事实上,很多研究者十年前就做过。当然,当世界更加复杂时,对机器学习系统也更加复杂,但是其归律却可以是更加的简单。
2机器学习中的引导与约束
当我们让机器学习系统学习物理规律时,其实是有两个思路。
1)完全利用机器学习系统的能力,物理规律是存在于世界之中。通过大量的数据观测,机器学习系统可以直接从数据中提取出运动模型来。就好像牛顿看到苹果落地,最后得出万有引力一样。
2)知识引导。显示的知识约束,在设计机器学习系统时,把一些物理规划显示的加进训练过程中。比如做成一个损失函数。因为在训练过程中不断的纠正模型,最后训练的模型也是附合物理规律的。
这两种方法各有利。后一种方法,可以称之为窄AI,更适于专业的领域,或是打榜。这样的机器学习系统是更容易开发与训练,数据效率也更高但这这类机器学习系统的能力会被人工智能开发者的专业知识与能力限制住。这类AI很难学到开发者不知道的知识。比如说如果视频中是水流,模型中就可加入流体力学。如果是刚体,就要加入机械力学,如果是软件就是加入材料力学,如果是物体在水平上飘动,就要加入刚体与流体的界面力学。即使开发者把这些都加入了。系统也可能不工作。如果视频中是山崩地烈,还要加入破碎力学。所以这类系统具备学习能,但是是不是AGI(通用人工智能)。
而对于方法1来说,模型开发者是不做过多的假设。但是对于模型的数据提取能力要求很高。Sora所提出的时空隐空间(spacetimelatentspace)。在原理上是没有对生成数据作过多的约束。可能只有两点。1)在时空上连续2)低维。当数据压缩到足够低的时候,预测足够准的时候,物理规律会自然的涌现出来。这类方法并不需要显示的知识,它的原理是就如果机器学习系统看到的视频是真实物理世界发生的视频的话,那么当机器学习系统预测的结果跟物理世界是一样的话,那么可以说机器学习就掌据了物理规律。虽然机器学习系统可能并不能显示的说出力学公式来,但是他可以预测得准。
我们可以对两个系统打个比方:比如说炒股。方案A的好像是专家,有很多金融跟股票的知识。在很多时候讲了许多道理,帮大家挣了许多钱。但是如果市场上有一些消息专家不知道,或是市场情况他没见过,他可能对股价预测就不准。,可能一下子就全赔进去了。方案B可能就是一位股神,他买股标全靠直觉。他可能说不出来为什么金融理论来,但是只要他股价猜得准,他就可以挣钱。
Sora这种能力更接近于股神。这是动物式的AI,一只大象,不需要文字,不需要知识,不用上学但是他也会跑会走。也是通用人工智能的做法。所以动物式AI的最了不起的是他没有在知识的引导下,在自然中自然学会了各种生存技能。他知道果子要什么时候成熟才能吃,也知道河里的水能不能游过去。
Sora所采用这种强大的学习能力来自于transformer的模型。transformer模形要比上一代的人脸识别的模型强大的多。原因在人脸识别的模型采用的卷积神经网络CNN,这类东西的假设是数据存在局部特性以及平移不变性对数据进行压缩。在本质上是为视觉设计的。他的网络结构跟常规视觉处理的流水钱是一致。它在本质上可以理解为一个架构师设计了个系统,但是将很多子模块交给了人工智能。人工智能可以优化各个模块,但是整个系统是有天花板,这是由架色决定的。而
Transformer这种网络,能力要强上的多.它是对于学到的东西没有做假设的。transformer结构的基本假设是人工智能核心是记忆。原因在于transformer的核心是记忆跟回忆的能力,它可以查找,读取,更改记忆。transformer的假设计AI只要学会如何形成记忆,学会回想起来就OK了。在理论上来讲,它是一个完备的图灵机。任何计算机程疗transformer是都可以实现。
从原理上说,当sora看到了全世界的视频后,它形成了记亿。然后当看到一张图的时候,它能从记忆中找到类似的情况,然后再生成一个跟接近的。当他经验很丰富时它就差不多。但是这个方法度在如何从记忆中找出,记忆是如何组织的。这就看它的数据压缩的能力了。
虽然我们不知道Sora具体实现的细节,但是我们也可以理解一些大模型的特点。为什么它们要那么多的数据,为什么它们要那么大算力。因为它在没有知识引导下,需要大量的数据形成记忆。没有大量的经验,是做不准的。第二是为什么大模型可以支持语言,视频等等。原因在于大模型的核心是记忆跟回忆的能力,跟数据格式无关。所以当Sora生成许多奇怪的视频的。不同人会形成不同的看法。
1对于做坚持用AGI的方式来解决问题的人来说,是数据跟记忆出现的问题。许多问题可以理解为时序错乱。可以理解为AI虽然想到了一件事,但是先后顺序弄错了。其实正是这种错误,说明Sora还是在依靠记忆的能力跟数据压缩,而不是靠物体仿真。对于AGI的研究者,问题是如果在不显示告诉AI的情况下,让AI在学习中自己学出来(涌现)
2但是也会有许多人跳出来说Sora有问题,加上一些物理约束就很容易克服这些问题,这样的模型虽然在具体任务上有一定优势,但是在AGI的进展上是在开倒车。
1跟2都能取得同样的效果,但是1)是在进步,2)在AI技术上并没有进步。
那么Sora告诉我们什么呢?人跟动物对物理规徤的认识以及环镜的预判可能不是依靠物理仿真,而是基于记忆的机制实现的的。
3Sora的最有价值的应用场景不是视频,是机器人。
许多人看到Sora之后,第一的结论是电影跟视频行业被颠覆了。但是我认为Sora真正的应用价值是在机器人领域。其实今天机器人在速度与精度上,己经远超过人了。但是机器人比不了人的是对于环境的理解跟预测。因为人可能预判,在很多任务进时提前做动作的。比如打球,高不平运动员并不是追着球跑跑的比较快而己,很多的时候胜负的关键是运动员对以比赛的解读跟预判能力。所以做出一台机器人,跑得一样快,跳的一样高。人类运员也是会打败机器的。
比如在养老领域,一台机器人扶人走路。机器人的问题是不在于去扶老人,而是不知道人会向哪个方向摔例。但是护理的人员其实根据经验是预判老人摔例方向,提前去扶。如果Sora这样的技术,看到老人提前去。另一点就是机器人叠衣服。难度不在于叠的动作,而在于很难预测衣服的变形。对于未来的环境的预判在很多任务中是关键而且普遍。因为任何机器人最终都将运行在不断变化的环境中。
比如自动驶中,最大的问题不是三维环镜与运动规划。而是不能确定行人跟其他车的行为。但是如果sora教会机器人预判环境的变化,那一切就将不同。
最后,我想说一说我对AI意义的看法。许多人批评AI,说AI的研究好像作作视频并没有应用价值。即使是机器人可能用上,目前也没用上。Sora生成的视频,虽然看上支很像,但是又有什么用呢?我觉得我可以列出AI一推的用吐。即使Sora承测很准,但是我们不一定用Sora,还是力学方程更可靠,精度更高些。但是我应用价值可以有不一定是AI的根本意义。如果有人问我AI的意义在哪,我要问的是问艺术,文化,宗教,哲学这些东西的意义又在哪。我的认识是世界上有两个规律,一个是客观的物理世界。另一个是人的思想与心录。两个东西运行的原理是不同的,但是两个系统计算的结果是相同。AI可能最根本的意义不是告诉我们物理世界运行的规律,而在于它在揭示生命是如何思考的。我们的灵魂是如何工作的。一个成功的AI不应是只看最否符合物理的规律,而在于它是否真实的反映了人类思考的规律。成功的AI不仅要像人一样的成功,也要像人一样的犯错。AI范了跟人一样的错误是拥有巨大的价值,它在告诉我们人性的不足。所以不要用物理准确度来评价AI,就像不要用真实性来评价艺术品的美学价值一样。每次写AI我都会想起毕可索谈艺术的一句话:
艺术是真实的,它不是物理世界的真实,是我们心灵世界的真实。
-
醉饮狂歌 赞了这篇日记 2024-05-03 00:05:27
-
慢一秒没关系 赞了这篇日记 2024-04-07 10:58:31
-
mos 赞了这篇日记 2024-02-25 10:02:26
-
天光祐佐哉 赞了这篇日记 2024-02-24 16:07:22
-
指尖Moment 赞了这篇日记 2024-02-23 23:26:27
-
Ocean Lau 赞了这篇日记 2024-02-23 22:56:16
-
鼠鼠生风 赞了这篇日记 2024-02-23 22:37:34
-
漫游慢慢游 赞了这篇日记 2024-02-23 19:58:09
-
猫爱吃冻鳗 赞了这篇日记 2024-02-23 18:36:54
-
紫数 赞了这篇日记 2024-02-23 16:09:22
-
alenwg_cn 赞了这篇日记 2024-02-23 15:58:44
-
masterplan 赞了这篇日记 2024-02-23 15:42:45
-
玉兔戏嫦娥 赞了这篇日记 2024-02-23 15:28:21