一篇论文对我研究汉语的启示
多年来,一直对汉语戒慎恐惧,一种一掉进汉字的汪洋大海马上就找不着北的感觉。如果打开一本古籍线装书,从上到下、从一条条黑框读下去,就仿佛是走进了一个美术馆,一个个汉字整整齐齐地排列在那里,琳琅满目,没有任何标识,其线条飞扬,笔画疏密更像是抽象主义的艺术品。甚至有时会问我自己,难道这就是我的母语?(语言学学多了会走火入魔地 :)) 这更像走进一个现代艺术派的画廊,如果有人指着墙上的两幅画说,猜猜看这两幅画之间有什么联系,会使它们表达一个“综合”的意思,我一定会感到迷惘的。

后来学了日语,学久了、学深了,又“转回”到古汉语,因为日语的终极修养在古汉语,中国的古典。这样,又促使我努力去学习古汉语。不过,很奇妙的是,不是原汁原味的古汉语,而是作为日语学习一部分的“漢文”(kanbun)从而又接受了一种新的体验:用日语的语法规则“重新”阅读古汉语,这在日语中叫做“訓読”(kundoku)。这是一种当时觉得很“坑爹”的体验,好好的古文诗词,用这种上下来回颠倒过山车式的读法,不一会儿你就会天旋地转,头脑晕眩。古汉语有平仄、有节奏、有韵律,念出来或是娓娓道来或是掷地有声,而“訓読”成日语,简直就是一坨坨的糨子。 再后来,学这个学那个,多少年就过去了。现今,把这个当年让我吐得七荤八素的东西又拿出来,突然感觉很有意思,又多了些新的想法。首先,这种“訓読”法很像早期的计算机编程,没有子程序的“意大利面条”式的编程,程序流在字里行间忽上忽下地跳动。第二,这种“訓読”,又像目前流行的语料标注,对没有任何标识的汉字进行另一种语言的句法解释。 那这个故事和我“害怕”汉语有什么关系呢?在这之前,总以为汉语研究太难,面对一大篇汉字,你凭什么说汉字A是名词,汉字B是动词。如果是根据字面意思,那么受了西方语言学“洗脑”的我,马上会说,destruction和destroy都是“毁灭”的意思,但前一个只能是名词,而后一个只能是动词,所以对词进行分类不能靠字面意思。那汉字除了靠意思之外还能靠什么呢?也许会有聪明的学者发明出什么新的方法,但那只能是“唯心论”,是那个学者凭空杜撰的,而不是汉字本身所具有的。汉字除了笔画、读音和基本意思以外看得见摸得着的就真的什么也没有了。这个问题,对于人来讲还不是太大问题,但是到了计算机时代,就成为一个很令人头痛的问题了。 如果汉语作为语言学的研究对象,其实和现在的自然语言处理的过程是一样的,首先要切分,将一个汉字文本分割成具有意义的最小单位。而这个过程,在前计算机时代,是人为规定的,而规定的依据大致上就是根据字面意思。这种用“主观感受”强行规定的做法很难称为“科学”方法,而不这样自己也没有什么好的方法,因此眼不见为净,见到汉语绕着走成为我多年的教条。前几年曾写过一篇批评国内语言学研究的小文,其实那时对如何研究汉语我心里也没有定算,只是想,在找到真正“科学”的方法之前,可以研究世界上几乎任何语言,但绝不轻言研究汉语。 后来在《生成语法理论》小组,发表了几篇关于汉语的帖子,不过那不是真正认真严肃的研究,最多只不过是在传统的生成语法框架内对理论的确认而已。 多年对语言学的兴趣使我对汉语的认识也逐渐加深,感觉汉语的研究,要划分不同的层次,严格确定研究的范围。第二,研究汉语必须要有参照系,一些在汉字堆里找不到答案的问题,眼光向外或者跳出汉语的圈子就会有不同的认识。这就像我们在地球上,我们在笔直的大马路上行走,认为我们的运动轨迹是直线,但是站在太空上看,你走的却是球面体的曲线运动。 而与汉语历史渊源最深的当属东亚的日韩语了。这两个语言的使用者都以古汉语作为本语言的终极语言,而且两国的知识分子都以古汉语的造诣作为修养高低的基准,类似早年法语在英语使用者之间的地位。再回过头来看现代汉语,何尝不是以古汉语为立身之本呢。从这个意义上讲,古汉语不仅是中国现代汉语语言的源头,更是东亚语言文化的载体。因此,汉语的研究,特别是现代汉语的研究,应当放在这个大的语境中,在古汉语这共同的载体之上和日韩语的对照就更有意义了。对这个问题,我早就有觉悟,但是没有能力展开阐述。 最近一个偶然的机会,在网上找到了一篇用日语写的论文——《二十一世紀の漢文-死語の将来》,一个法国东方学家写的,名叫Jean-Noel Robert,看完后感受就两个字——震撼。知识之广博、深远超出我之想象,此人精通拉丁希腊希伯来阿拉伯、日韩中越,研究领域却是东亚佛教的天台宗。但更难能可贵的是洞见,我上面提到的中国古汉语应当是日韩中越语的祖语(作者原语是:圣语)的主张就是此公提出的,他甚至认为朗读古汉语,只要按照文字本身顺序,用任何语言、日韩越粤语、都应当是平等的,独普通话离古汉语最远,等等,惊世骇俗而发人深省。 这篇文章更加坚定了原来的想法,研究现代汉语,应当从古汉语开始,在这个大框架下,对照汉语、日语、韩语和越语(可惜我对韩语和越语不懂)研究古汉语的句法可能是最有生产性的研究。因为古汉语的大部分词汇是单字词,更接近汉语的本质。在现代汉语无法透彻解决词定义的情况下,如果从古汉语开始,也许可以遇到较少的麻烦。而且,日韩语是与汉语在结构上完全不同但文化传承词库共享的语言,换句话说,日韩语可以看做以汉字为基本元素重新构筑的另外两种语言(当然现代韩语已经放弃了汉字)。形式化的说法,至少汉语和日语,可以看做是同一字符集合下所定义的不同运算/操作的两个系统。研究的目标就是看看这两个系统间是否存在某种映射关系,这样汉语的词汇、句法语义、甚至音位都可以从这种映射关系中得到比只在现代汉语内打转转更令人惊讶的结果。 从古汉语开始(特别是先秦散文)可以让我们大致假定词与字的一对一关系,而汉字虽然不是语言学分析的直接单位,但却是形成语言学最小单位的基本素材,在字与词大致一一对应的情况下,我们就不必考虑词的定义问题所关注的应当是更高层次的问题:语言分析单位的描述和结构问题。 中国历史上包括哲学、训诂学、音韵学、文字学等比较发达,留下了大量的文献资料,从这些学科中可以汲取到许多珍贵的思想和洞见。在这方面要做哪些工作,尚留待以后的学习研究。 从古汉语的研究所要到达的彼岸,应当是一个在有限字符集内的系统定义。首先应当能够形式化给出词的静态类别和动态的类别确定语境和类别的映射关系;第二可以确定一个原则制约体系,作为合法字串产生、识别的操作集。这个集合的元素数量必须是有限的,可算法定义的。最理想的,每一个操作都可以用组合原则可归纳派生的。最后,更理想的是,通过这个系统的定义,我们可以开发一个确定的形式语言,作为元语言来描述我们的语法系统。 从哪里开始呢?我想,应当从介绍Jean-Noel Robert的那篇《二十一世紀の漢文-死語の将来》开始。不过这篇论文很长,不适合在这里展开,打算放在《语言》小站,有兴趣的敬请关注。