[转载]被开除的语言学家回不来了?斯坦福 Manning 组发现 BERT 可自动学习句法结构
来源:数据实战派
虽然一般认为,BERT只是在学习相邻词汇出现的概率,但斯坦福Chris Manning的最新研究发现,BERT已经可以开始识别语法和句法结构。
作者:EDMUND L. ANDREWS
原文:Is language the ultimate frontier of AI research?
题图:Stanford
编译:Xinyu
生物学家可以通过生物信息学和大数据分析获得巨大的收获,但需要耗费大量工作才能生成分析所需的数据集。与此同时,全球各地的研究者们都不断“培养”出许多有用的数据集,但这些数据通常不会被广泛共享。
我们考虑以下一个让计算机学习的句子:“The chef who ran to the store was out of food”(厨师跑到商店少了食物)。即使计算机能理解全部的词汇,并且也有了相关的知识,也会困惑与到底是谁少了食物,是厨师?是商店?还是厨师运营了一家缺少了食物的商店(Did the chef run the store that ran out of food)?
如果一个人懂英语,会立刻知道答案是厨师。但即使顶尖的人工智能系统也做不到这点。毕竟这个句子中确实有一部分是“the store was out of food”。
图片出处:PNAS
很多新的机器学习模型通过在treebanks数据集上训练来解决这一问题。Treebanks是一个经人类标注的语句数据集,带有语法、句法和其他语言要素的信息。
然而,treebanks的问题是标注成本非常大,也很费人力,同时由此产生的模型仍然不能很好地解决语言的歧义。相同单词组成的句子可以有完全不同的含义,因为句子结构和上下文可能不同。
不过,斯坦福大学Chris Manning实验室发表的两篇论文发现,BERT模型可以不通过人类标注的句子就能自己学到语言学的原理。这个过程很像人类在幼年时的语言学习过程,那时他们还没有任何语法或句法的概念。
更让人惊讶的是,研究人员发现,AI系统已经可以开始推断出适用于不同语言的通用语法关系。
这一发现对自然语言处理领域意义重大,开发出的工具也能帮助小众语言的使用者。
研究成功的关键似乎在于机器通过完成几十亿次填字游戏(类似Mad Libs),就能学到语言的很多东西。为了更准确地预测需要填写的缺失单词,AI系统逐渐创建自己的模型,研究词语之间如何关联。
Christopher Manning表示,随着这些模型变得更大、更灵活,它们可以自行发现和学习人类语言的结构。这和人类幼年时学习语言的方式类似。
第一项研究:学习句子结构
在第一篇论文 Emergent linguistic structure in artificial neural networks trained by self-supervision的作者是 Chris Manning和Facebook人工智能研究院的Omer Levy,以及他们的三个学生。
论文作者使用了谷歌开发的语言处理模型BERT。BERT使用填字游戏的方法训练自己,不过研究人员认为BERT只是简单地把位置靠近的词语关联在一起。一个同时提到了“篮板”和“跳投”的句子,可能也会出现篮球相关的其他词汇。
不过,斯坦福大学的研究团队发现,BERT做的远不止如此:它可以学习句子的结构,并以此识别出名词、动词,以及主语、谓语和宾语。所以,BERT解析句子真实含义的能力提升了。
团队表示,类似填字游戏、单词预测这种看似简单的任务,其实是一个非常有效的自我监督信号:神经网络可以通过归纳句子结构的表达来改进这个任务,而这些句子结构包含了语言学的许多概念,包括词类、句法结构(语法关系或依存关系)、指代等。在论文中,团队便研究了模型中的学习注意力结构(learned attention structure),并开发了一些简单的探针(一种常用的工具,通过预测某些属性来了解模型是否“理解”词法、句法等),以表明BERT对上述几种类型的语言信息有所掌握。最终显示,BERT学习到的句子编码在很大程度上与语言学家们提出的句子树的概念所靠近。
在句子“The chef who ran to the store was out of food”中,每个词都被视作为一个向量,结构探针对该空间进行线性变换,在此空间下,向量之间的距离最好地重建词间的树路径距离,一旦进入这个潜在空间,树结构就会被向量空间的几何所全局表示,这意味着在空间中接近的词在树中是接近的,事实上,图中的树可以通过最小生成树得到恢复。
Chris Manning 表示,如果模型能找到缺失动词的主语和谓语,而不是简单地找到附近的词,就能更好的预测出这个缺失的动词。如果我们知道“她”指的是Lady Gaga,那我们就更容易推测出“她”做了什么。
这种能力很有用。我们考虑一个投资基金的推广文字:“It goes on to plug a few diversified Fidelity funds by name”(它将根据名字推广一个多元化的富达基金)。
模型系统会把“plug”识别成动词,虽然一般plug都是名词;也会把“fund”识别成plug的宾语(名词),虽然fund有时候也可是动词。要做到这点并不容易,因为模型系统不能被“plug”和“fund”中间的一大段描述词汇字符串(“a few diversified Fidelity”)分散注意力。
模型系统还可以很好地识别出互相指代的词汇。在一条以色列和巴勒斯坦会面的新闻中,系统识别出一句话中的“talk”和下一句话中的“negotiations”是一个东西。这里系统同样正确的判断出“talks”是一个动词。
“某种意义上,这无疑是一个奇迹(miraculous)”Chris Manning说。“我们只是拿着非常大的神经网络完成填字游戏,但足以让模型开始学习语法结构。”
第二项研究:发现通用语言规律
在另一篇论文 Finding Universal Grammatical Relations in Multilingual BERT 中,Manning和他的学生Ehan Chi以及其他合作者发现的证据表明, Multilingual BERT(mBERT)可以学会在英语和其他很不相同的语言(如法语和中文)中普适的规则。同时,mBERT还能学会语言间的差异。例如,在英语中,形容词往往位于它修饰的名词之前,而法语和其他很多语言形容词会跟在名词之后。
基于Transformer 的多语言遮罩模型 Multilingual BERT(mBERT)能够零击跨语言转移,这表明其某些方面是跨语言共享的。为了更好地理解这种重叠,团队将最近在神经网络的内部表示中查找语法树的工作扩展到了多语言环境。
研究团队表明, mBERT 表示的子空间以英语以外的其他语言恢复了语法树距离,并且这些子空间在各种语言之间近似共享。基于这些结果,团队提出一种无监督分析方法,可以证明mBERT学习了句法依赖标签的表示形式,其形式为与通用依赖分类法基本一致的聚类。该证据表明,即使没有明确监督,多语言遮罩模型也会学习某些语言通用性。如果可以识别跨语言的通用模式,至少能让学会一种语言的模型系统可以更轻松地学会新的语言——即使这两种语言看起来并不相似。
这篇论文已被ACL 2020收录。
参考文献
[1] 第一篇论文:https://www.pnas.org/content/early/2020/06/02/1907367117#sec-8
[2] 第二篇论文:https://www.aclweb.org/anthology/2020.acl-main.493.pdf
[3] https://hai.stanford.edu/blog/how-ai-systems-use-mad-libs-teach-themselves-grammar