信息、局部/全局最优解
信息是可能性的塌缩。但是,塌缩的趋势是站在信息整体的角度去看的,如果信息很“长”,在其局部来看是未必的。
信息是能够被用来消除不确定性的东西。香农1948年论文没有这样一句话。2015年被添加入维基百科。还有八十年代“三论”思潮中据说出现过。那么,“错误信息”呢?局部完全能够一叶障目。
那么,纯数学的研究,是否可以探索出、在没有全局观的前提下、识别当前的收敛解是否为局部最优解的办法?不出意外的,木有(范志毅举手)。
对于大型语言模型如何预测出一句话,现行的做法是:以此前所预测出的所有字来预测下一个字。llm的输出是一个token,是用softmax得出的。这种方法就是在基于此前所预测的结果上,选择接下来最有可能的那个预测。所以,如果对“可能性”的定义是不够的话,它就是很有可能得到局部最优预测。这就是“幻觉”。
目前我常观察到,在softmax计算前,vector中的值常呈现一个单一的“较大数”、其余的都是“较小数”。但也有一些情况,是在softmax计算后,存在一个0.5、一个0.4这样比较接近的结果。我认为这就是其他局部解出现的分叉口。现行的做法会直接抛弃较小的。在那个方向上,可能也是一个局部最优解、另一个幻觉,但也可能是全局最优解。
这个“分叉口”的判断阈值怎么定呢?如果0.5、0.4是判为应保留的分叉,那么0.6、0.3呢?[0.5,0.22,0.21,...]呢?越是长的预测结果,越可能出现难辨的分叉口。那么,保留下大部分分叉口,一个prompt就会有许许多多的可能回答了。接下来又需要一个llm来审视这堆回答,从而得出多角度的总结性回答,比如“最靠谱的”、“最别致的”、“最离经叛道的”或“很难回答,但在所有可能的设想中,关于某某的定义,导致了众多不相关的解答方向”。