吴语五地词汇相关度的计量研究
零 概念的界定
(一)词段:从话语语流中抽取出来的语言单位,是词的音段表现形式,包括一个声母和一个韵母,不包括超音段的声调。虽然在同一语音系统中不能辨义,但在不同语音系统的比较中,在词目确定的前提下,语义已经确定。
(二)词的相关度:词的相关指同一个词目在不同地区说法异同的程度:所有的词段都相同则说这个词在这些地区的说法相同,相关度为1;完全不同的,相关度为0;部分词段相同或某些词段在语音上有相关的对应,则说这个词在这些地区有相关性,相关度可以通过一定的计算方法求出。
(三)词的读法:指一条词目在某地的语音表现形式,包括所有语素的语音表现形式。记录时,用国际音标表示,不用汉字表示。
一 词汇相关度计量研究述评
对方言间和不同语言间词汇接近率的计量研究,曾有过下述六种方法:
1.1 语言年代学(glottochronology)
日本学者王育德1960年发表用语言年代学方法研究汉语五大方言接近率及其分化年代的成果。该研究主要对比词的文字表现形式的异同,不涉及语音的对比。王育德所使用的统计工作包括两部分。第一部分是比较二百个基本词汇在各方言中的异同数,所用的方法是算术统计法。第二部分根据M.Swadesh提出的计算公式,计算五大方言分化的年代。
1.2 相关系数统计法
这种方法由郑锦全于1973年最早提出。他用“皮尔逊相关”和“非加权平均系联法”计算不同方言的字音和词汇文字表现形式的亲疏程度,同时提供方言分区的方案。参加比较的词目共905条。在相关系数统计结果的基础上,再做聚类分析。
郑锦全的相关系数统计法利用计算机处理庞大的方言资料,用树形图对18种方言间的亲疏程度作出直观而细密的描写。显然,相关系数统计法比算术统计法要精密、合理得多。不过它有两个主要缺点:一是没有考虑词频这个重要因素;二是比较词汇异同,只考虑词形异同,并不顾及词内部词根或中心语素的异同。如“太阳”和“日头”词形不同,两者的相同率为0;“太阳”和“太阳佛”词形不同,两者的相同率也为0。实际上“太阳佛”的中心语素跟“太阳”完全相同,将两者的相同率当作0来处理是不合理的。1.1中所述的算术统计法也有这两个缺点。
王士元和沈钟伟于1992年撰文批评郑锦全的方法在语言学上和计算上的不合理性,提出在汉语方言分类上,计算的基本单位应该是语素,而不是词。他们进一步完善了相关系数统计法和聚类分析法,并且对吴语内部三十三个点的方言词汇的亲疏关系进行了计量研究。
1.3 算术统计法
这种方法将不同方言的词汇的同或异,用加减法进行统计,然后以百分比计算接近率。詹伯慧和张日升曾根据他们所编《珠江三角洲方言词汇对照》(1988)的材料,比较北京话和粤语词汇的接近率。参加比较的词汇有1001个,两者相同的只有140多个,仅占10.4%。
王育德和詹伯慧等人使用的方法都是算术统计法,但是所得结果相差甚远。原因显然是两者参加比较的词汇的数量不同,王育德所用是两百个基本词汇(结果70.77%),詹伯慧等人所用的词汇则有一千个至八千个。可见基本词汇相同率较高,一般词汇相同率较低。
1.4 概率法
借词和同源词向来是比较难区分的。陈保亚在《论语言接触与语言联盟》(1996)中试图用概率的方法解决这个问题。陈保亚认为,语音对应规律不能作为确定同源关系的充分条件,这是因为语音对应规律本身不能说明最早时间层次的关系词是同源词还是借词。但语音对应规律的另一个重要作用是排除偶然相似。当两种语言的一系列词在语音上有对应时,很难用偶然巧合加以解释。于是,他根据声母、韵母和声调的对应规则,用卡方分布和泊松分布,计算出某词在两地属于同源词的概率。陈保亚采用M.Swadesh1952年从印欧语言中挑选出的人类语言中最稳定的200个词和1955年从这200个核心词中筛选出的100个更稳定的核心词作为分析材料,并把100个最稳定的核心词称为第一阶词,把第二个100词称为第二阶词。通过概率计算,陈得出结论:侗台语和南岛语的关系词第100词高于第200词,应当承认侗台语和南岛语有同源关系。
这种计量法将词汇和语音的因素结合在一起考虑,从音类的必然变化和音素的偶然变化入手,运用概率将这两种变化区分开,将同源词在语音上的变化归为音类的必然变化;借词则归为偶然变化,有一定的创意。但是它把声调当作和声韵母同样重要的因素考虑却值得探讨。我们认为考虑“有共同语义的词段”这个因素比较合理。
1.5 矩阵分解(matrix decomposition)
这是Sanzheng Qiao和William Shi-Yuan Wang于1998年提出的方法。这种方法是用一对矩阵分解任何的无根双叉树。这个方法也可以用矩阵生成树。作者以欧洲语言基本词汇的接近率计算为例,阐述了这一研究方法。矩阵分解是应用计算机,在所有的合成可能中寻找一种最佳的树行合成图。这与早先的聚类分析不同。
1.6 加权平均法
游汝杰、杨蓓在《广州话、上海话和普通话词汇接近率的计量研究》(1999)一文提出了加权平均法。这种方法改进了上述统计方法,以广州话、上海话和普通话为例,提出方言间词汇接近率计量研究的新方法。这个新方法有三个特点:(1)用加权法统计不同方言词汇的异同,以词频作为权数。(2)以中心语素为基准比较词汇的异同,分级加权统计。(3)多人次测验方言词汇的口语可懂度。所用词频数据参考北京语言学院语言教学研究所编的《现代汉语词频词典》(1986)。
1.7 小结 综上所述,可以归纳出以下几点:(1)对于语言的计量来说,材料是至关重要的。一般来说,选用词作为计量的材料比较多,而且也比较妥当。因为词是语言最基本的载体,联系着语音和语法,在整个语言系统中占有举足轻重的地位。但是,选择什么样的词,选用多少数量的词,这对计量的结果会产生很大影响。目前,用语言年代学的200个基本词汇作研究的比较多,但问题的关键在于这二百个词是否适合汉语?除了语义上的解释,还有什么其它证据可以证明这些词的稳定性?上述各家的研究表明,选择的词汇数量和相关度成反比,所以在研究相关度时,词汇的数量必须适中。(2)如果研究的材料被确定为某些词后,接下来的问题就是从哪个角度进行计量研究。就一个词而言,词段是相当重要的。一般来说,一个词有文字表现形式和语音表现形式两种。对印欧语来说,这两种表现形式的差别并不大,因为它是拼音文字,文字直接联系语音。但汉语就不同了,汉字和汉语词的语音没有直接的关系。一个词在两地的文字表现形式相同或相似(这里的相似指的是一个词中部分字相同),说明语素相同或相似。但这并不表明其在语音上必然相同或相似,两地如果相差很远,或其语言已经分化了很长时间,那么在语音上很可能已经截然不同,而这种不同在文字上是无法表现的。同样,一个词在两地的文字表现形式不同,并不能说明语素不同,或许它们在语音上会有联系。所以,在研究汉语词汇的相关度时
,需同时考虑语素和语音两个要素。(3)很多人认为,对语言进行量化研究,会忽视许多文化的、历史的因素。但是,语言本身就包涵了许多历史的、文化的因素。只要材料确切、详实,对语言进行量化,其实同时就是对许多文化的、历史的甚至是现实的因素进行量化。如果我们对杭州话的词汇进行量化,可以发现其儿化音所占的比重很大,这实际就是一个历史的因素:南宋末年的迁都临安,造成今天的杭州话和北方话的相似。
二 语音相关系数
2.1 韵母相关系数的确定
两个韵母进行比较,完全相同的,相关系数为1;不同的则在通过计算求出它们的相关系数;听感上没有相识点的,其相关系数则为0。首先要确定单元音的相关系数。这里有一条基本原则,就是两个元音必须在听感上相似。换言之,只有在听感上相似的两个元音,我们才会给它们确定相关系数。
附图
Lade foged型声学元音图(引自Catford,1981)
利用元音舌高点的位置可以绘制元音 《吴语五地词汇相关度的计量研究》