翻译:大语言模型的哲学,第一部分(Millière 和Buckner,2024)
3.3 语言理解和grounding
即使LLMs可以仅从语言记号(linguistic tokens)中推断出句法,但这也不意味着它们也能从中推导出语义。的确,一个常见的批评是,这些仅基于文本训练的模型虽然能快速且令人信服地模仿合格的(competent)语言使用者,但是本质上缺乏人类般的语义能力。对此有以下几种不同的论述。
怀疑论者如 Bender和Koller(2020) 反对语言模型能够理解语句(linguistic expression)的含义,毕竟它们的训练集和学习目标只是语言形式,即可感的语言符号(mark)。他们借鉴语言学传统,区分形式与意义,意义被定义为语句和交流意图间(communicative intentions)间的关系。照此观点,意义不能仅从形式中习得,因此语言模型在构成上就把握不了意义。
与此相关的是Harnad 1990 提出的所谓“符号奠基问题”(symbol grounding problem),该问题指出,NLP系统操纵的语言记号和记号的现实指称物之间存在明显脱节。在经典NLP系统中,符号(symbols)随机表征词语,然后被根据形状和手工编码的规则操作,符号和指称对象间因而没有任何内在联系。符号的语义解释是外在地——由程序员——提供的。从系统自身的视角,符号只是嵌入在句法规则中的无意义的记号。Harnad认为,如果要NLP系统的符号有内在(intrinsic)含义,就要建立内部符号表征和符号所指称的外部对象、事件或性质间的根本联系。不然,系统的表征就会脱离现实的束缚,只能通过外部阐释者获得意义。
奠基问题最初针对的是经典符号系统,但也适用于LLMs。 (Mollo & Millière 2023) 虽然LLMs是将语言记号处理为向量而非离散符号,但这些向量表征也可能脱离现实束缚,即LLMs不能生成有内在含义的表征和输出;许多批评者把这一点视作LLMs的根本不足。LLMs虽然可以输出对语言使用者而言有意义的句子,但是这些句子不可能独立于外部阐释者具有意义。
第三种批评关于LLMs是否有能力具备交流意图。该批评来自Griean传统,即区分稳定的、语境无关的字面意义和说话者含义(speaker meaning)。LLMs只在如下层面上具有含义:输出词语的组织方式符合实际语言使用的概率模式。但是要用这些句子交流,LLMs需要具有相应的交流意图。仅仅作为一个记号预测(next-token prediction)的最优模型,LLMs缺少产生交流意图的根本元素,例如内置目标和心灵理论(theory of mind)。
常与以上批评并行的是,LLMs缺少理解语言的能力。这一批评认为,LLMs只是“概率鹦鹉”,随意地反刍字符串而不理解它们的含义。如前所述,LLMs输出的句子通常被看作是意义的这点,几无争议,毕竟目前的LLMs非常流利,几乎不产生难理解的句子。但问题在于,我们应当把这些所谓有意义的输出理解为类似于合格的语言使用者的输出,还是说它更像一个猴子( proverbial monkey)在打字机上盲目地敲击。
为了避免措辞上的争论,我们首先要放弃“理解”这个术语,因为对这个词的定义或者它具体涉哪些能力等问题上还没有共识。与之相反,语义能力这个概念似乎稍微好处理一点。宽泛地说,语义能力就是一系列能力和知识的集合,它们使说话者能够使用并且解读某一给定语言中的表达。基于Marconi 1997,我们把它进一步区分为推理 (inferential) 和指称(referential)两个方面。推理性语义能力是基于词间关系的能力和知识,体现为下定义、转述、识别同义词和反义词、从前提中推导事实、翻译,以及其它仅仅依赖语言知识的抽象语义任务。指称性语义能力关乎将词语和句子关联到真实世界中的物体、世界和关系,它体现为识别词语在真实世界中的指称物,(例如将椅子识别为“椅子”)使用词语命名或描述物体/事件/关系,(例如称有毛的动物为“猫”)以及服从涉及真实物体的指令。(例如“给我个斧子”)
目前已有许多策略论证LLMs可能已经实现了一定程度的语义能力。Piantadosi & Hill (2022) 聚焦语义推理方面,参照概念角色语义学(conceptual role semantics),认为词语在所处概念表征系统中的功能决定了词语的核心含义,而LLMs极有可能把握到了这个核心层面。他们声称,LLMs同人类一样,其词汇的意义取决于与相应表征的内在关系,不取决于外部指称物。这些表征可以被形式化为高维语义空间中的向量。向量空间的“内部几何”(intrinsic geometry)指不同向量间的空间关系,比如向量间距离、向量群间的角度以及向量相应上下文的移动方式等。 Piantadosi 和 Hill认为,LLMs的惊人语言能力表明,它们的内部表征空间的几何特征大致映射了人类概念空间关键特征。所以,不能仅从观察LLMs的架构、学习目标和训练集断定LLMs 的语义能力,还要考虑它们的向量空间的内在几何特征。
Piantadosi 和 Hill援引的实验证据是,神经网络的表征几何(representational geometry)和人类对语义相似性的判断间存在一致性(alignment)。比如,仅是浅层词嵌入模型(shallow word embedding models)的向量空间对语境依赖内容的把握,就和人类如何评判(rate)概念关系和类别高度相关。更重要的是,LLMs 可以引入有关语言分布语义的实质性知识,这些知识与语义能力的推理方面直接相关——这可以从它们产生定义、释义和摘要的出色能力以及它们在自然推理任务中的表现中得到证明。
至于LLMs有没有指称性语义能力则争议不一。语言哲学当下盛行的外部主义观点挑战了直接感知对于建立指称关系的必要性;语言使用者通过语言分工(linguistic division of labour)或历史使用链(historical chain of usage)实现指称行为,不需要直接接触现实指称物。所以,一个有趣的问题是,LLMs是否具备参与人类的语言分工和意义因果链的条件。 Mandelkern & Linzen (2023) 认为,文本LLMs虽然缺乏对外部世界中事物的表征,但文本训练已使它们置身于人类的语言社群中了,因而可以实现真实的指称关系。的确,如果指称可以在语言社群的历史使用中确定下来,那么LLMs通过训练集,恰当地衔接到词语使用的因果链上,就可以具备指称能力。此外,原则上,LLMs可以使自己的词汇概念遵从人类的概念内容。正如当一个外行遵从专家的方式使用术语时,就是在使自己对概念内容的理解匹配专家的概念内容。只需依据训练集中人类使用词语的模式微调LLMs自身的使用方式,就能恰当遵从 (deference)人类的语言习惯 。
在语义外在论的语境下,怎样才算属于一个语言群体,不应是个无关紧要的问题。比如,普特南将具有一定语义意图(semantic intentions)的能力视作先决条件。比如,其它语言使用者或许使用某词语指称某特定东西,语义意图就是援引他们的习惯指称同样的东西。这里,怎样才能算作“同样的东西”取决于具体科学的定义。比如化学将“一样的液体”定义为,当我们称某物为“水”的时候,该物所满足的标准。同样,生物学中,“同样的物种”就是使得我们称一些动物为“老虎”时的标准。下文中,我们将看到,LLMs是否表征了语义意图,尚有争议。无论如何,应该会很有意思的是,未来能看到更多实质性的实验,来验证LLMs是否满足普特南和克里普克所说的,与语言社区中的人类成员尊敬互动(interact deferentially)的前提。
恰当地置身于人类语言使用的模式中足以担保指称的假设,也和奠基问题相关。虽然 LLMs 通过训练集,和世界有间接的因果联系,但这并不能保证他们的表征和输出奠基于实在指称物中。表征内容理论可能需要与世界进一步建立联系,比如,建立规范,基于世界的实际情况约束表征正确性。如果没有习得恰当的涉及世界的函项( world-involving functions),而只是承担通往人类语言实践的因果关系,可能还不足以实现指称性奠基和拥有内在意义。 Mollo 和 Millière (2023) 认为文本LLMs实际能借助人类反馈强化学习(RLHF)所提供的语言外的评估标准,进行微调,得到涉及世界的函项。微调后LLMs虽然仍旧没有直接触及世界,但是RLHF详尽的反馈可以将它们的输出奠基在真实的事态中。
注意,LLM貌似拥有指称能力不意味着它们也有交流意图,比如能够断言、澄清、说服、欺骗等其它有功用的行为。交流意图是相对确定的,不随时间变化,并且和说话者其它的意图、欲望等合理且有机地结合在一起。其次,交流意图往往是有等级的,包含多层抽象。比如,一个哲学教授授课时,她最高等级的意图或许是传授知识,在这个意图之下还有许多互相交织的具体意图,比如想要阐明功利主义的一点反驳等。与之相较,LLMs没有能力像人类一样,制定长期计划,追求某个目标。它们可能短暂地实现一次配合,但是缺乏持续的、有层级结构的意图促成长期计划。并且,主导人类沟通意图的那种理性要求不能直接应用到LLMs身上。因为,LLMs无法像人类那样,意图总能和自己的融贯的信念目标系统保持一致,相反,它们只是选择性地回应那些能刺激它们语言表现的提示符(prompt),而且常常以极端不同甚至不一致的方式。
-
Real Stewie 赞了这篇日记 2024-07-23 06:14:46