潜伏语义分析的理论及其应用
and well-quasi-ordering
m4: Graph minors:A survey
表1
附图
使用SVD技术,就得到下列的3个矩阵,如表2:
表2
附图
然后我们取这三个矩阵的头两列(即取其两个维数)来加以还原,便得到下面的矩阵(表3):
表3
附图
我们可以首先看m4列的survey和trees。trees这个词在m4题目里并没有出现,但是m4里有Graph minors,而m3里也有Graph minors,且出现了trees,所以在原来矩阵里为0的值被变为0.66,它表示在有graph和minors的题目的无限样本中,trees可能出现0.66倍。相反地,survey在原来矩阵中的m4中为1,但是却变为0.42,反映了它在这样的上下文里并非人们所期望的,不足以表示这个题目的特征。我们还可以比较human和user,human和minors在原来矩阵和后来矩阵的相关系数:前者原为-.38,后者原为-.29,现分别提高到.94和-.83。而在原来的矩阵里,human并没有和user或minors一起出现。减少了维数后显示human和user是更为相似,而human和minors则相反,更为不相似。
LSA可以用来揭示一些隐含的内部关系。让我们再看另一个例子。中国学生英语语料库(桂诗春、杨惠中,2002)是一个有100万词的作文语料库,对5种不同水平——中学生(st2)、大学英语4级(st3)、大学英语6级(st4)、专业英语低年级(st5)、专业英语高年级(st6)——的写作失误进行了标注(共有61种)。最常见的失误有21种,占全部失误的87%。根据Landauer等人的意见,在进行SVD之前,必须对这些数据作预处理:1)把每个频数+1,然后转换成对数;2)把每一列的数值计算为-plog p,然后除以每列的平均信息量(即熵,entropy)。其公式(Maletic et al.1999)为:
附图
这样做的目的是通过估算每一个词项在每一个语篇的重要性(即该词项与它所出现的语篇所提供的信息量的程度成反比例),对它的出现率加权。在信息提取中经常使用这种转换,可获显著效果。限于篇幅,我们略去了计算的中间数据和经SVD处理后(包括将维数减为2个)结果(注:我们使用的工具是Excel的“数据分析”和国际牲畜研究院Greg Hood所编制的,可在Excel上运转的Poptools2.4版。),只报告几个有意义的变化,这些变化说明,由于减少了维数,几种学习者的言语失误的关系都有所微调,趋于更为合理。例如第一种失误是拼写失误(Fml)。转换值并没有改变原来的次序,大学英语4级和6级学习者的拼写失误比中学学习者略多,因为它们的语源来自CET考试的命题写作,而中学生则是自由作文的居多。命题写作有特定的用词要求,往往成为拼写失误的来源(如要求学习者用pollution)。现在的分析并没有把特定用词要求考虑在里面,而仅就失误的频数和其他失误的关系而言,经过SVD处理后,这种失误的发生率呈现为逐步略有降低的趋势,较符合中国英语学习者的实际。和写作用词有很大联系的是用错了词(wd3),经过SVD处理后的变化如下:
Fm1 St2 St3 St4 St5 St6
原始频数 1929 2877 2113 1827 1687
转换值 3.30 3.47 3.34 3.27 3.24
处理后值 3.52 3.46 3.36 3.25 3.00
从绝对频数来看,St3似乎比St2和St4、St5都少,处理后则显得较为合理,趋于逐步降低。
一般来说,在SVD处理后还可以比较处理前后的余弦cosine(θ)(注:余弦Cosine(θ)为两个向量的夹角,比相关系数更能表示相似性的程度。其公式为:),有时亦用相关系数来表示。经过计算,相关系数从处理前的0.604增至0.728。拼写失误是中国学习者最容易犯的失误,和各种失误都有密切的关系。经处理后,它的平均相关系数从0.614提高到0.817。
4.LSA的应用
LSA以矩阵代数的SVD为依托,而SVD在信息处理,如图象压缩、噪音过滤、开发软件的源代码等方面都得到较广泛的使用。LSA在语篇处理和语义的分析和提取方面均有广阔应用前景。
第一、我们要看LSA模型是怎样回答我们柏拉图问题。需要证明的是通过大量接触自然文本,人们能否获得语义相似性的知识?Landauer等人先对一个有代表性的英语语料库(包括美联社的新闻、给学生看的Grolier's美国大百科词典和有代表性的儿童读物)做SVD分析,然后用这个模型来做一次TOEFL同义词测试(共80个项目)。为了模拟人的行为,他们把题目中的测试词和每个选项的余弦都计算出来,然后让LSA模型来选择意义最接近的词。LSA的答对率为65%,相当于在美国的来自非英语国家的考生的平均答对率。但是要进一步回答儿童怎样在“负面的证据”的情况下习得词汇,还要考虑效率问题。Landauer等人认为,归纳方法取决于重建一个处于高维数空间的多重相似性系统,这样出现在局部上下文的事件也就可以反映高层次语义空间的相似性。因为四分之三的词语知识都是来自间接归纳,即接触一些那些词语并不在其中出现的文本。他们进一步完善其语料库的选词办法,并对照Carroll等人的Word Frequency Book(1971)所提供的数据,推断出每一段文本后的词汇增长率为0.20。如果一般学生每天平均读50段文字,就可每天增长10个新词。
第二、在信息提取方面,出现了LSI技术,以取代一般的主题词检索。早在80年代,Dumais等人(1982)对一个包括有1033个医学文献的摘要和题目的数据库,自动检索到出现两次以上的词语5823个,经过SVD处理取得100个因子,然后对数据库提出30个问题,LSI比原来的主题词检索改善了13%。后来技术有所提高,据Berry等人(1994)对几个系统的检验,LSI的改善程度已达30%。Deerwester等人(1990)认为,LSI的优点是,它可以解决同义性、多义性和词语依赖性(term dependency)三方面的问题。LSI的研究还在发展,一些令人兴奋的进展是信息过滤、增加检索问题的长度(TREC系统可以提出长达50个词的问题来进行检索)和进行跨语种检索(Rosar 《潜伏语义分析的理论及其应用(第3页)》
本文链接地址:http://www.oyaya.net/fanwen/view/206405.html
m4: Graph minors:A survey
表1
附图
使用SVD技术,就得到下列的3个矩阵,如表2:
表2
附图
然后我们取这三个矩阵的头两列(即取其两个维数)来加以还原,便得到下面的矩阵(表3):
表3
附图
我们可以首先看m4列的survey和trees。trees这个词在m4题目里并没有出现,但是m4里有Graph minors,而m3里也有Graph minors,且出现了trees,所以在原来矩阵里为0的值被变为0.66,它表示在有graph和minors的题目的无限样本中,trees可能出现0.66倍。相反地,survey在原来矩阵中的m4中为1,但是却变为0.42,反映了它在这样的上下文里并非人们所期望的,不足以表示这个题目的特征。我们还可以比较human和user,human和minors在原来矩阵和后来矩阵的相关系数:前者原为-.38,后者原为-.29,现分别提高到.94和-.83。而在原来的矩阵里,human并没有和user或minors一起出现。减少了维数后显示human和user是更为相似,而human和minors则相反,更为不相似。
LSA可以用来揭示一些隐含的内部关系。让我们再看另一个例子。中国学生英语语料库(桂诗春、杨惠中,2002)是一个有100万词的作文语料库,对5种不同水平——中学生(st2)、大学英语4级(st3)、大学英语6级(st4)、专业英语低年级(st5)、专业英语高年级(st6)——的写作失误进行了标注(共有61种)。最常见的失误有21种,占全部失误的87%。根据Landauer等人的意见,在进行SVD之前,必须对这些数据作预处理:1)把每个频数+1,然后转换成对数;2)把每一列的数值计算为-plog p,然后除以每列的平均信息量(即熵,entropy)。其公式(Maletic et al.1999)为:
附图
这样做的目的是通过估算每一个词项在每一个语篇的重要性(即该词项与它所出现的语篇所提供的信息量的程度成反比例),对它的出现率加权。在信息提取中经常使用这种转换,可获显著效果。限于篇幅,我们略去了计算的中间数据和经SVD处理后(包括将维数减为2个)结果(注:我们使用的工具是Excel的“数据分析”和国际牲畜研究院Greg Hood所编制的,可在Excel上运转的Poptools2.4版。),只报告几个有意义的变化,这些变化说明,由于减少了维数,几种学习者的言语失误的关系都有所微调,趋于更为合理。例如第一种失误是拼写失误(Fml)。转换值并没有改变原来的次序,大学英语4级和6级学习者的拼写失误比中学学习者略多,因为它们的语源来自CET考试的命题写作,而中学生则是自由作文的居多。命题写作有特定的用词要求,往往成为拼写失误的来源(如要求学习者用pollution)。现在的分析并没有把特定用词要求考虑在里面,而仅就失误的频数和其他失误的关系而言,经过SVD处理后,这种失误的发生率呈现为逐步略有降低的趋势,较符合中国英语学习者的实际。和写作用词有很大联系的是用错了词(wd3),经过SVD处理后的变化如下:
Fm1 St2 St3 St4 St5 St6
原始频数 1929 2877 2113 1827 1687
转换值 3.30 3.47 3.34 3.27 3.24
处理后值 3.52 3.46 3.36 3.25 3.00
Wd3 St2 St3 St4 St5 St6
原始频数 1102 1635 1815 757 360
转换值 3.27 3.45 3.50 3.09 2.75
处理后值 3.30 3.49 3.44 2.99 2.84
经处理后,St3仍然是最高的,但St4的绝对频数虽然是最高的,处理后则比St3略低。St6的绝对频数比St5的少一半,但处理后的值为2.84并没有比2.99少一半,仅低0.15倍,这说明用错词在St6中仍然是一个常犯的失误。句法结构(Sn8)的失误也是中国学习者常见的失误,下面是另一个SVD处理后的变化:
Sn8 St2 St3 St4 St5 St6
原始频数 1104 446 862 493 232
转换值 3.27 2.85 3.16 2.90 2.55
处理后值 3.14 3.06 2.97 2.90 2.68
从绝对频数来看,St3似乎比St2和St4、St5都少,处理后则显得较为合理,趋于逐步降低。
一般来说,在SVD处理后还可以比较处理前后的余弦cosine(θ)(注:余弦Cosine(θ)为两个向量的夹角,比相关系数更能表示相似性的程度。其公式为:),有时亦用相关系数来表示。经过计算,相关系数从处理前的0.604增至0.728。拼写失误是中国学习者最容易犯的失误,和各种失误都有密切的关系。经处理后,它的平均相关系数从0.614提高到0.817。
4.LSA的应用
LSA以矩阵代数的SVD为依托,而SVD在信息处理,如图象压缩、噪音过滤、开发软件的源代码等方面都得到较广泛的使用。LSA在语篇处理和语义的分析和提取方面均有广阔应用前景。
第一、我们要看LSA模型是怎样回答我们柏拉图问题。需要证明的是通过大量接触自然文本,人们能否获得语义相似性的知识?Landauer等人先对一个有代表性的英语语料库(包括美联社的新闻、给学生看的Grolier's美国大百科词典和有代表性的儿童读物)做SVD分析,然后用这个模型来做一次TOEFL同义词测试(共80个项目)。为了模拟人的行为,他们把题目中的测试词和每个选项的余弦都计算出来,然后让LSA模型来选择意义最接近的词。LSA的答对率为65%,相当于在美国的来自非英语国家的考生的平均答对率。但是要进一步回答儿童怎样在“负面的证据”的情况下习得词汇,还要考虑效率问题。Landauer等人认为,归纳方法取决于重建一个处于高维数空间的多重相似性系统,这样出现在局部上下文的事件也就可以反映高层次语义空间的相似性。因为四分之三的词语知识都是来自间接归纳,即接触一些那些词语并不在其中出现的文本。他们进一步完善其语料库的选词办法,并对照Carroll等人的Word Frequency Book(1971)所提供的数据,推断出每一段文本后的词汇增长率为0.20。如果一般学生每天平均读50段文字,就可每天增长10个新词。
第二、在信息提取方面,出现了LSI技术,以取代一般的主题词检索。早在80年代,Dumais等人(1982)对一个包括有1033个医学文献的摘要和题目的数据库,自动检索到出现两次以上的词语5823个,经过SVD处理取得100个因子,然后对数据库提出30个问题,LSI比原来的主题词检索改善了13%。后来技术有所提高,据Berry等人(1994)对几个系统的检验,LSI的改善程度已达30%。Deerwester等人(1990)认为,LSI的优点是,它可以解决同义性、多义性和词语依赖性(term dependency)三方面的问题。LSI的研究还在发展,一些令人兴奋的进展是信息过滤、增加检索问题的长度(TREC系统可以提出长达50个词的问题来进行检索)和进行跨语种检索(Rosar 《潜伏语义分析的理论及其应用(第3页)》