动态奖励函数与大乘是佛说
最近在反复掰扯奖励函数的问题。起因是用GRPO(群体相对策略优化)方法训练3B的模型学习阿毗达磨。阿毗达磨对它来说太难了,文本又是直接从《婆沙》中摘录的繁体字,上来就答对是不太可能的。更何况要求格式和答案都正确。
GRPO方法类似于“瘸子里挑将军”,选五个瘸子,看哪个最能打,就把他树立起来作为标杆。标杆被挑出来的次数越来越多,大家也就慢慢知道该往哪个方向卷。——这里说的“大家”,是模型每一次选择的策略。如果总体上来看,就是模型在慢慢知道哪种选择是有好处、被奖励的。
问题在于,当题目非常难的时候,你发现挑不出来将军。别说是瘸子,就是五个大力士,都没有一个能打的。面对的好像铜墙铁壁。统统零分,甚至负分。如果有零分有负分还好办,问题就解决一半了,实际上是,统统零分,或者统统负分。至于是大家都零分还是都负分,取决于你对奖励函数的设置。——这就没啥意思了。就像高考,目的在于选拔。不在于把大家都考死,也不在于让大家都考上,而是区分出好的,和相对好的,以及差的。
这件事给我的一个启发就是,如果最终目标太难,在一开始,千万不要惩罚。哪怕模型答得错得离谱,也要从中挑出值得鼓励的策略。——说白了就是,对小孩子,要鼓励犯错误。10岁以前的小孩,通常来说,由于能力的有限,只要始终在大人的监护看管下,就算犯了错误,损失也是有限的。目的是让他在犯错误中,探寻出有价值的东西。如果上来就禁止他犯错误,以成年人的标准来要求他,他就会畏首畏尾,什么行动都不敢采取,慢慢就废掉了。
对模型来说,就是初始训练阶段,要鼓励它犯稍微有那么一点接近正确的错误。这有点类似于“相似佛法”。相似佛法在佛教史上,主要是被抨击的。但它被抨击有它的语境。大乘出来之后,说小乘是相似佛法。而小乘认为大乘根本就不是佛法。如果我们从机器学习的视角来类比,会觉得这就是个奖励函数变迁的问题。
如果一个人不学相似佛法的话,他是根本学不到佛法的。在正确答案(假如存在的话)周围,密密麻麻地布满了各种错误。你一定要先激励初学者犯这种错误,哪怕他往犯这种错误的路上迈一小步,也要奖赏他。但这奖赏并不意味着迈的一小步是正确的。
这就是相似佛法的功用。它是阶段性地起作用。一个永远不犯错误的人就不可能有任何进步。偶像崇拜是必要的,至少在某个阶段是必要的。尽管在后面的阶段你可能应该亲手打破曾经崇拜的偶像,但那是后话。没有前面的阶段,根本轮不到说后面的话。
类似的道理,五乘共法、三乘共法,也都是大乘道途中的必要阶段。——这是对一般的种性来说的。并不是对菩萨种性。菩萨固然可以“正直舍方便,但说无上道”,但并不是每一个众生都是菩萨种性,或者说,眼下是菩萨种性。从机器学习上理解,就是模型参数量的问题。如果是对一个671B参数量的大模型来说,大可完全不要这一步,上来就设定正确的标准,扫荡一切错误的奖励;这就是菩萨种性。但是,你对一个3B的模型来说,上来设定正确标准的意义,只能让它从此与正确绝缘。因为它无论怎么蒙,都还是不行。这时候,并不是骂它是焦芽败种的时候。因为它离正确实在太远了。就像《阿弥陀经》说,“当知我于五浊恶世,行此难事”。在离正确太远的空间里探索,无论它如何拼命,都不可能触碰到正确的边缘。因此在这个阶段,你要用相似佛法鼓励它。
我们应该鼓励小朋友犯错误,但是,一旦进入青春期,这种鼓励就必须大大降低。否则,在荷尔蒙的驱动下,他有可能犯下不能承受的错误。相似佛法只是一个阶段,过了这个阶段,就要越来越发现它的坏而不是好,就要着眼于它曾经产生的积极作用已渐渐成为过去时,如果不能及时调整,未来的过患极大。对成年人来说,上有老下有小,肩负着家庭的重担,就不应该再鼓励他多犯错误了,对错误要以惩罚为主。因为这时候,他的经验让他明白一些正确和错误的分野。就好比在大乘勃发的阶段,“焦芽败种”的说法被提出来,“藏通别圆”的划分被标榜。但这并不意味着藏教就是小教,而应该理解为奖励函数是动态设置的。这种动态,从拟人上来说,是佛菩萨不舍众生的慈悲方便。
但也要知道,奖励函数不是万能的。比奖励函数更底层的,更具有决定意义的,是模型的参数量。你应该用什么样的奖励函数,在什么样的阶段怎么设置,其实是因模型而异的。这也就是阿毗达磨中说的,苦可以遍知,集可以遍断,灭可以遍证,但是,道没有可能遍修。八万四千法门,一种适合一种根机。从这里着眼,就会知道种性的意义。菩萨种性和缘觉种性乃至声闻种性,各自适配的道路当然是不一样的。
但这也不意味着种性决定论。在久远劫中,种性也未必是要看成固定不变的。我们可以放弃“一个模型有它固定的参数量”这种理解。这就是重新审视“模型”的定义。GPT-3,GPT-4,GPT-4.5,它们是三个模型还是一个模型?通常我们把它们看成三个不同的模型,只是属于同一系列。但如果我们从系列上去定义模型,那么一个模型也可以有不同的参数量。这就是唯识和中观的分际。我们还可以进一步打破这种概念的限定,比如把transformer甚至更底层的概念叫做模型。像剥芭蕉那样一层一层剥下去,最终发现并没有什么概念可以叫做模型。那么也就不必再株守种性说了。一切都是阶段性的适配或不适配。
王路的最新日记 · · · · · · ( 全部 )
- 越过边境的少女 (4人喜欢)
- 我哪敢跟领导讨价还价 (9人喜欢)
- 半夜摸鱼的队长和会计 (1人喜欢)
- 林姐的钥匙:一段无法启程的旅途 (2人喜欢)
- 高档会所的合影和离岸公司 (8人喜欢)
热门话题 · · · · · · ( 去话题广场 )
-
加载中...