【Python简易教程:自然语言研究的工具】 1. 自然语言与编程语言
【Python简易教程:自然语言研究的工具】目录
下一节:1.1 自然语言的形式化描写
1. 自然语言与编程语言
编程语言是一种人工的形式语言,其最初的目的是为了给特定的机器下达指令。形式语言有其字母,字母之间的组合构成了形式语言的词汇(但形式语言的词汇并不涵盖所有可能的字母组合,正如英语中pjiki并非一个单词一样!),而这些词汇又可以组合成表达式。符合句法和语义规则的表达被称为“合式表达”。
由此可见,形式语言和自然语言在“形式”上是非常接近的。但唯一有所不同的是,自然语言是一个动态的认知构建过程,依赖于其他机体的认知机制,如生理结构和思维活动。人工智能的实现有两种可能性:一种可能性是诠释并移植,即尽最大可能地诠释人类的认知活动,包括语言的和非语言的,然后将其系统地移植到人工智能上。另一种可能性是提供生物基础,让生物基础自行发展出认知能力。很显然,第二种可能对于耶和华来说轻而易举,但对于人类来说却近乎不可能。
举一个例子,比如形式语言完全可以包括“汽车”这个词汇,但计算机却很难理解汽车的充分的语义信息(“汽车”有很多的词汇语义信息,但有一部分知识,包含图像、声音信息,对汽车的识别起着至关重要的作用)。因此,现在人工智能必须把语言和其他认知模态结合起来,让人工智能有近似于人的图像和声音认知,并与语言符号联系起来。
在词汇语义上,人工智能还有很长一段路要走。但在语义组合上,人工智能则具备良好的运算能力。自然语言语义的组合性和形式语言的组合性别无二致,都依靠λ演算,类型论。较为复杂的是基于模态逻辑的情态认知和时空认知,对于这一点自然语言语义学还有很长的路要走,遑论将其应用于人工智能上了。因为我们都不是耶和华!
对自然语言进行研究,无论是从形式的角度还是从功能的角度,现在都越来越依靠实验和统计方法。(人类的认知难道不是基于统计学和概率论的吗?)这本书将为语言学专业的学生介绍一种非常接近人工语言的形式语言:Python。我们将从最基本的概念讲起,侧重编程语言在语言学研究中的工具作用(而不是借鉴作用,因为自然语言才是形式语言生命的源泉,基于自然语言的认知能力是形式语言的出生与演化的先决条件)。借助编程语言,我们可以让计算机来处理繁冗的语音学数据,让计算机完成词汇语义的信息挖掘工作,让计算机借助树库来进行句法分析,让计算机借助(分段式)话语表征理论(SDRT)模型对篇章进行语用分析。有了编程语言,语言学的研究将更为高效。而我们之所以选取Python这样一个更为接近人工语言的高级编程语言,也是为了让学生更快地掌握实际操作能力,不必因学习C++这样复杂啰嗦的语言而罹患斯德哥尔摩综合征。而且,Python可以作为一个胶水语言,把其他语言写成的代码粘合在一起。那么,现在就让我们开始愉快的Python旅途吧。
下一节:1.1 自然语言的形式化描写
【Python简易教程:自然语言研究的工具】目录
下一节:1.1 自然语言的形式化描写
1. 自然语言与编程语言
编程语言是一种人工的形式语言,其最初的目的是为了给特定的机器下达指令。形式语言有其字母,字母之间的组合构成了形式语言的词汇(但形式语言的词汇并不涵盖所有可能的字母组合,正如英语中pjiki并非一个单词一样!),而这些词汇又可以组合成表达式。符合句法和语义规则的表达被称为“合式表达”。
由此可见,形式语言和自然语言在“形式”上是非常接近的。但唯一有所不同的是,自然语言是一个动态的认知构建过程,依赖于其他机体的认知机制,如生理结构和思维活动。人工智能的实现有两种可能性:一种可能性是诠释并移植,即尽最大可能地诠释人类的认知活动,包括语言的和非语言的,然后将其系统地移植到人工智能上。另一种可能性是提供生物基础,让生物基础自行发展出认知能力。很显然,第二种可能对于耶和华来说轻而易举,但对于人类来说却近乎不可能。
举一个例子,比如形式语言完全可以包括“汽车”这个词汇,但计算机却很难理解汽车的充分的语义信息(“汽车”有很多的词汇语义信息,但有一部分知识,包含图像、声音信息,对汽车的识别起着至关重要的作用)。因此,现在人工智能必须把语言和其他认知模态结合起来,让人工智能有近似于人的图像和声音认知,并与语言符号联系起来。
在词汇语义上,人工智能还有很长一段路要走。但在语义组合上,人工智能则具备良好的运算能力。自然语言语义的组合性和形式语言的组合性别无二致,都依靠λ演算,类型论。较为复杂的是基于模态逻辑的情态认知和时空认知,对于这一点自然语言语义学还有很长的路要走,遑论将其应用于人工智能上了。因为我们都不是耶和华!
对自然语言进行研究,无论是从形式的角度还是从功能的角度,现在都越来越依靠实验和统计方法。(人类的认知难道不是基于统计学和概率论的吗?)这本书将为语言学专业的学生介绍一种非常接近人工语言的形式语言:Python。我们将从最基本的概念讲起,侧重编程语言在语言学研究中的工具作用(而不是借鉴作用,因为自然语言才是形式语言生命的源泉,基于自然语言的认知能力是形式语言的出生与演化的先决条件)。借助编程语言,我们可以让计算机来处理繁冗的语音学数据,让计算机完成词汇语义的信息挖掘工作,让计算机借助树库来进行句法分析,让计算机借助(分段式)话语表征理论(SDRT)模型对篇章进行语用分析。有了编程语言,语言学的研究将更为高效。而我们之所以选取Python这样一个更为接近人工语言的高级编程语言,也是为了让学生更快地掌握实际操作能力,不必因学习C++这样复杂啰嗦的语言而罹患斯德哥尔摩综合征。而且,Python可以作为一个胶水语言,把其他语言写成的代码粘合在一起。那么,现在就让我们开始愉快的Python旅途吧。
下一节:1.1 自然语言的形式化描写
【Python简易教程:自然语言研究的工具】目录