机器翻译中汉语动结式生成的过程和困难
句里动作过程的完整性,我们在生成过程的最后一步(处理表层词语)规定,“把”字后面排斥否定谓语形式。
根据我们的观察和实验,在二价动结式述语结构的五种表层形式中,“把”字句在语义表达的适应性上比较好,常常能够包容除语义关系之外的其他一些选择控制因素。譬如,补语是双音节的动结式一般不宜选择表层结构S+V+C+O,但“把”字句不受这个限制。再如,用“把”字句来表达“你把坑挖浅了”这一类含有动结式的句子,正好能够表示其偏离预期结果的意思,比用其他表层结构更合适一些。“把”字句在动结式生成中为什么会有这样的表现?这不是机器翻译能够解释的问题。
现在再来看我们要生成的例句:“小王读了这篇文章,结果小王懂了这篇文章”。经过“动作—结果”述谓关系的判断、词语选择、合法性判定和语义结构整合,我们得知,它可以生成一个二价的动结式述补结构,其中各个组成成分之间的语义关系是:
S→V←O & S→C←O
这种语义结构符合控制条件2(S是V和C的主体格,而且O是V和C的客体格)。因此为它选择的表层句法形式是:
S+“把”+O+V+C
再经过表层词语的处理,最后生成:
小王把这篇文章看懂了。
6.余论
戴浩一(2002)在论述汉语语法的哲学基础时指出,语法现象是概念系统概念化的结果。他从宏观角度提出了从概念结构到汉语句法和词汇形式的过程,说明在这个过程中起作用的是汉语的概念化原则。应该说,机器翻译从中介语言逻辑表达式生成动结式译文的过程就是这样一个实例。从“动作—结果”述谓关系的判断、词语选择、合法性判定、语义结构整合、直到句法形式选择和表层词语处理,我们需要的是具体的、可操作的句法化、词汇化的原则和规则,这样才能从生成机制上找到动结式的构成条件。多年来,汉语语法一直比较重视动结式述语结构的研究,在结构层次、结构关系、句法功能、语义关系、配价结构,还有组成成分的特征和性质等问题上有许多论述。只是研究结论多数是面向人的,能为汉语信息处理和机器翻译所用的还不多。比如,关于动结式是如何形成的,人们大多从历时的角度,指出它的来源是古代汉语的使动用法。而机器翻译需要的是从共时的角度找到动结式形成的控制条件,告诉计算机,在什么情况下,哪些动词和哪些形容词(或动词)可以组合成、以及怎么组合成符合汉语习惯的动结式述语结构。还有,如何从要生成的句子意思里找到“动作—结果”关系及其述谓结构?如何根据要表达的意思选择合适的词语?如何从动词和补语的配价结构推算出动结式的配价结构?如何从动结式的语义结构选择它的句法表现形式?以及如何在句子表层处理时体成分、否定成分、指代关系、数量关系?在没有找到解决这些问题的有效规则以前,机器翻译系统还只能采用某些权宜之计来生成汉语的动结式。
在强调规则的作用的同时,我们也看到统计语言模型的方法近年来越来越多地应用在语言工程中,出现了基于实例的和基于统计的机器翻译系统。在人们对语言和翻译的机制还缺乏系统的了解,还没有一种适合信息处理的语言理论可以应用的时候,统计语言模型可能会起到某种依靠“量”来获取“质”的作用。它的前提是,大量语言现象的统计规律能够确切地反映语句的构造规律和言语过程的认知规律。而实际上,这还是有待证明的观点。更何况统计语言模型需要建立在语言学知识的基础上,一个语言模型能否达到比较好的处理效果,很大程度上取决于我们能为它提供什么样的语言学知识作为参数。计算的任务是获取参数之间的统计学规律,参数才是建立模型的根本。目前统计模型方法在机器翻译系统中效果不佳,其主要原因应该不是模型本身的计算能力有限,而是能够提供给模型的关于机器翻译的知识太少。汉语语法研究目前还没有发掘出足够的这一类知识,或者是还没有把它们系统地、结构化地组织起来。这一点对基于规则的方法来说,同样也是亟待解决的问题。
从机器翻译系统总体设计的角度说,汉语动结式的生成包括两个方面的问题。一个是根据哪些语言知识来生成,这与汉语研究有密切关系;另一个是怎样实现生成的过程,这是把问题形式化和设计算法的事情。我们讨论的内容只涉及第一个方面,目的是通过对动结式生成过程的描述,看看它需要哪些语言学知识的支持。实际上,我们谈到的生成过程还相当粗略,提出的问题也仅仅是一小部分。曾经有人(白硕,1996)说过,继说本族语言的人和说非本族语言的人之后,计算机的出现给语言研究带来了一个新的参照物。它将帮助人们认识到一些在旧的参照物下很难揭示出来的语言现象和规律。希望我们提出的这些问题也能成为这样的一种“参照”。
【参考文献】
1 白硕 1996 《语言研究中的实用主义》,《计算机时代的汉语和汉字研究》,北京,清华大学出版社。
2 戴浩一 2002 《概念结构与非自主性语法:汉语语法概念系统初探》,《当代语言学》第1期。
3 董振东等 2001 《知网和汉语研究》,《当代语言学》第1期。
4 郭锐 1995 《述结式的配价结构与成分的整合》,《现代汉语配价语法研究》,沈阳等主编,北京大学出版社。
5 侯精一等 2001 《中国语补语例解》(日文版),北京,商务印书馆。
6 黄昌宁等主编 2001 《自然语言理解与机器翻译》,北京,清华大学出版社。
7 Hutchins,W.J. 1993 《机器翻译:过去、现在、未来》,台湾,致文有限公司。
8 李临定 1986 《现代汉语句型》,商务印书馆。
9 —— 1980 《动补格句式》,《中国语文》第2期。
10 陆俭明 1990 《“VA了”述补结构的语义分析》,《汉语学习》第1期。
11 吕叔湘 1986 《汉语句法的灵活性》,《中国语文》第1期。
12 马希文 1987 《与动结式动词有关的句式》,《中国语文》第6期 《机器翻译中汉语动结式生成的过程和困难(第6页)》
本文链接地址:http://www.oyaya.net/fanwen/view/140858.html
根据我们的观察和实验,在二价动结式述语结构的五种表层形式中,“把”字句在语义表达的适应性上比较好,常常能够包容除语义关系之外的其他一些选择控制因素。譬如,补语是双音节的动结式一般不宜选择表层结构S+V+C+O,但“把”字句不受这个限制。再如,用“把”字句来表达“你把坑挖浅了”这一类含有动结式的句子,正好能够表示其偏离预期结果的意思,比用其他表层结构更合适一些。“把”字句在动结式生成中为什么会有这样的表现?这不是机器翻译能够解释的问题。
现在再来看我们要生成的例句:“小王读了这篇文章,结果小王懂了这篇文章”。经过“动作—结果”述谓关系的判断、词语选择、合法性判定和语义结构整合,我们得知,它可以生成一个二价的动结式述补结构,其中各个组成成分之间的语义关系是:
S→V←O & S→C←O
这种语义结构符合控制条件2(S是V和C的主体格,而且O是V和C的客体格)。因此为它选择的表层句法形式是:
S+“把”+O+V+C
再经过表层词语的处理,最后生成:
小王把这篇文章看懂了。
6.余论
戴浩一(2002)在论述汉语语法的哲学基础时指出,语法现象是概念系统概念化的结果。他从宏观角度提出了从概念结构到汉语句法和词汇形式的过程,说明在这个过程中起作用的是汉语的概念化原则。应该说,机器翻译从中介语言逻辑表达式生成动结式译文的过程就是这样一个实例。从“动作—结果”述谓关系的判断、词语选择、合法性判定、语义结构整合、直到句法形式选择和表层词语处理,我们需要的是具体的、可操作的句法化、词汇化的原则和规则,这样才能从生成机制上找到动结式的构成条件。多年来,汉语语法一直比较重视动结式述语结构的研究,在结构层次、结构关系、句法功能、语义关系、配价结构,还有组成成分的特征和性质等问题上有许多论述。只是研究结论多数是面向人的,能为汉语信息处理和机器翻译所用的还不多。比如,关于动结式是如何形成的,人们大多从历时的角度,指出它的来源是古代汉语的使动用法。而机器翻译需要的是从共时的角度找到动结式形成的控制条件,告诉计算机,在什么情况下,哪些动词和哪些形容词(或动词)可以组合成、以及怎么组合成符合汉语习惯的动结式述语结构。还有,如何从要生成的句子意思里找到“动作—结果”关系及其述谓结构?如何根据要表达的意思选择合适的词语?如何从动词和补语的配价结构推算出动结式的配价结构?如何从动结式的语义结构选择它的句法表现形式?以及如何在句子表层处理时体成分、否定成分、指代关系、数量关系?在没有找到解决这些问题的有效规则以前,机器翻译系统还只能采用某些权宜之计来生成汉语的动结式。
在强调规则的作用的同时,我们也看到统计语言模型的方法近年来越来越多地应用在语言工程中,出现了基于实例的和基于统计的机器翻译系统。在人们对语言和翻译的机制还缺乏系统的了解,还没有一种适合信息处理的语言理论可以应用的时候,统计语言模型可能会起到某种依靠“量”来获取“质”的作用。它的前提是,大量语言现象的统计规律能够确切地反映语句的构造规律和言语过程的认知规律。而实际上,这还是有待证明的观点。更何况统计语言模型需要建立在语言学知识的基础上,一个语言模型能否达到比较好的处理效果,很大程度上取决于我们能为它提供什么样的语言学知识作为参数。计算的任务是获取参数之间的统计学规律,参数才是建立模型的根本。目前统计模型方法在机器翻译系统中效果不佳,其主要原因应该不是模型本身的计算能力有限,而是能够提供给模型的关于机器翻译的知识太少。汉语语法研究目前还没有发掘出足够的这一类知识,或者是还没有把它们系统地、结构化地组织起来。这一点对基于规则的方法来说,同样也是亟待解决的问题。
从机器翻译系统总体设计的角度说,汉语动结式的生成包括两个方面的问题。一个是根据哪些语言知识来生成,这与汉语研究有密切关系;另一个是怎样实现生成的过程,这是把问题形式化和设计算法的事情。我们讨论的内容只涉及第一个方面,目的是通过对动结式生成过程的描述,看看它需要哪些语言学知识的支持。实际上,我们谈到的生成过程还相当粗略,提出的问题也仅仅是一小部分。曾经有人(白硕,1996)说过,继说本族语言的人和说非本族语言的人之后,计算机的出现给语言研究带来了一个新的参照物。它将帮助人们认识到一些在旧的参照物下很难揭示出来的语言现象和规律。希望我们提出的这些问题也能成为这样的一种“参照”。
【参考文献】
1 白硕 1996 《语言研究中的实用主义》,《计算机时代的汉语和汉字研究》,北京,清华大学出版社。
2 戴浩一 2002 《概念结构与非自主性语法:汉语语法概念系统初探》,《当代语言学》第1期。
3 董振东等 2001 《知网和汉语研究》,《当代语言学》第1期。
4 郭锐 1995 《述结式的配价结构与成分的整合》,《现代汉语配价语法研究》,沈阳等主编,北京大学出版社。
5 侯精一等 2001 《中国语补语例解》(日文版),北京,商务印书馆。
6 黄昌宁等主编 2001 《自然语言理解与机器翻译》,北京,清华大学出版社。
7 Hutchins,W.J. 1993 《机器翻译:过去、现在、未来》,台湾,致文有限公司。
8 李临定 1986 《现代汉语句型》,商务印书馆。
9 —— 1980 《动补格句式》,《中国语文》第2期。
10 陆俭明 1990 《“VA了”述补结构的语义分析》,《汉语学习》第1期。
11 吕叔湘 1986 《汉语句法的灵活性》,《中国语文》第1期。
12 马希文 1987 《与动结式动词有关的句式》,《中国语文》第6期 《机器翻译中汉语动结式生成的过程和困难(第6页)》