潜伏语义分析的理论及其应用
受试写一篇文本材料的摘要,然后再看他们从文本中获取了什么信息。这意味着把读者的文本表征(认知模型)和原来的文本表征加以比较,即把摘要中每一个句子的信息和文本中的句子信息加以比较。但是要对信息进行比较并非易事,它要求扫描原文,找出信息的所在。而且受试所写的摘要往往并不全都采用原文中的词语。所以光比较词语也不成。研究人员要比较的是摘要和原来文本的语义内容。Kintsch(1988,1998)所提出的构建整合模型(construction-integration model)就是一个观察读者对文本表征的认知模型,它把读者摘要的语义信息表示为一些语义成分组合,称之为命题(prepositions)。文本中的每一个子句是一个命题(如the red rose和the rose is red,都属于一个命题)。这些命题根据各种范畴连接起来,例如看它们是否共享中项(arguments)和指称(referents)。一个文本的所有命题组合起来就成为文本结构。不少实验都证明命题是人们的心理处理单位(如Graesser1981)。对文本和受试对它回述进行命题分析可以对一系列语义基本元素加以比较,其好处是这种比较并非表层结构的比较。但问题是,目前还没有生成命题的自动化程序,因为计算机必须对文本进行正确的语法分析,并且了解词语的正确意义。于是可以利用计算机来对语义相似性进行比较的潜伏性语义分析就应运而生了。
LSA原来是建筑在以语义内容的基础上以改善信息提取的一种设计,称为潜伏性语义索引(Latent Semantic Indexing,LSI)。在现实生活里,往往同一个语义概念表示为不同的词语,如果以原词作为检索单位,就费时失事。例如“电子计算机”往往又可以简称为“计算机”或“电脑”,甚至“服务器”和“机器”。如果在检索中只键入任何一种说法就能查出“电子计算机”,不是方便得多吗?这种方法还可以避免同义性的问题。LSA的基本假设是不同文件(文件可大可小,可以是词语所出现的整个语境,也可以是某些文本、段落和句子)的词语使用型式存在着某种“潜伏的”结构,而使用一些统计的方法可以估量出这种潜伏性结构。这些方法通过分析词语和文件之间的联系,产生一个在相同语境中使用的词语将会在语义上更为密切联系的表征。例如:
(1)The U.S.S.Nashville arrived in Colon harbor with 42 marines
(2)With the warship in Colon harbor,the Colombian troops withdrew.
"warship"所出现的语境(LSA称之为“向量”,vector)和"Nashville"所出现的语境相似,两者的上下文都有"Colon"和"harbor"。LSA所使用的技巧可以自动找出这些更深层的联系的结构。
又如我们读到下面的句子:
(3)John is Bob's brother and Mary is Anne's mother.
(4)Mary is Bob's mother.
这两句话里并没有出现表示亲属关系的sister,daughter,father,son等词语,但第(4)句使我们意识到Bob和Ann是兄弟姐妹,Anne是John的女儿,John是Ann的父亲,Bob是Mary的儿子。当然LSA所推断出的词际关系往往并非完全符合逻辑,它所揭示的仅是相似性关系。这些关系相互牵连和制约,可以产生出一些模糊的间接推断,关系上可强可弱,逻辑上可对可错。
3.怎样做LSA?
LSA以大规模的语料库为基础,使用了一种完全自动化的数学/统计技巧来抽取和推断词际关系,这种技巧就是线性代数中的奇异值分解(Singular Value Decomposition,SVD)。从概念上说,LSA模型可以理解为一个具有三层的神经网络系统。在SVD里,一个m×n的长方形矩阵{A}(m是行,n是列,m>n),被分解为三个矩阵:一个是m×n的成分矩阵{U},把原来的列的实体表示为派生的正交因子值的向量;另一个矩阵{w}用同样的方法表示原来列N×N的实体;第三个矩阵{V}的转置(transpose)是一个包括有标度值的直角矩阵(N×N)。
{A}={U}{w}{V}[T]
c3:The EPS user interface management system
c4:System and human system engineering testing of EPS
c5:Relation of user perceived response time to error measurement
m1:The generation of random, binary,ordered trees
m2:The intersection graph of paths in trees
m3:Graph minors IV:Widths of trees 《潜伏语义分析的理论及其应用(第2页)》
本文链接地址:http://www.oyaya.net/fanwen/view/206405.html
LSA原来是建筑在以语义内容的基础上以改善信息提取的一种设计,称为潜伏性语义索引(Latent Semantic Indexing,LSI)。在现实生活里,往往同一个语义概念表示为不同的词语,如果以原词作为检索单位,就费时失事。例如“电子计算机”往往又可以简称为“计算机”或“电脑”,甚至“服务器”和“机器”。如果在检索中只键入任何一种说法就能查出“电子计算机”,不是方便得多吗?这种方法还可以避免同义性的问题。LSA的基本假设是不同文件(文件可大可小,可以是词语所出现的整个语境,也可以是某些文本、段落和句子)的词语使用型式存在着某种“潜伏的”结构,而使用一些统计的方法可以估量出这种潜伏性结构。这些方法通过分析词语和文件之间的联系,产生一个在相同语境中使用的词语将会在语义上更为密切联系的表征。例如:
(1)The U.S.S.Nashville arrived in Colon harbor with 42 marines
(2)With the warship in Colon harbor,the Colombian troops withdrew.
"warship"所出现的语境(LSA称之为“向量”,vector)和"Nashville"所出现的语境相似,两者的上下文都有"Colon"和"harbor"。LSA所使用的技巧可以自动找出这些更深层的联系的结构。
又如我们读到下面的句子:
(3)John is Bob's brother and Mary is Anne's mother.
(4)Mary is Bob's mother.
这两句话里并没有出现表示亲属关系的sister,daughter,father,son等词语,但第(4)句使我们意识到Bob和Ann是兄弟姐妹,Anne是John的女儿,John是Ann的父亲,Bob是Mary的儿子。当然LSA所推断出的词际关系往往并非完全符合逻辑,它所揭示的仅是相似性关系。这些关系相互牵连和制约,可以产生出一些模糊的间接推断,关系上可强可弱,逻辑上可对可错。
3.怎样做LSA?
LSA以大规模的语料库为基础,使用了一种完全自动化的数学/统计技巧来抽取和推断词际关系,这种技巧就是线性代数中的奇异值分解(Singular Value Decomposition,SVD)。从概念上说,LSA模型可以理解为一个具有三层的神经网络系统。在SVD里,一个m×n的长方形矩阵{A}(m是行,n是列,m>n),被分解为三个矩阵:一个是m×n的成分矩阵{U},把原来的列的实体表示为派生的正交因子值的向量;另一个矩阵{w}用同样的方法表示原来列N×N的实体;第三个矩阵{V}的转置(transpose)是一个包括有标度值的直角矩阵(N×N)。
{A}={U}{w}{V}[T]
这三个矩阵相乘就可以恢复原来矩阵。如果我们在恢复时减少维数,就可以取得压缩语义空间的效果。
附图
下面是一个常被引用的例子:现有9条技术备忘录的题目,其中5条是关于人和计算机交互作用的,4条是关于数学图论的。这些题目在概念上不大相关,它们构成一个9列12行的矩阵,每一行是在这些题目中出现起码两次的实义词(均标为斜体),整理为表1。
c1:Human machine interface for ABC computer applications
c2:A survey of user opinio
n of computer system response time
c3:The EPS user interface management system
c4:System and human system engineering testing of EPS
c5:Relation of user perceived response time to error measurement
m1:The generation of random, binary,ordered trees
m2:The intersection graph of paths in trees
m3:Graph minors IV:Widths of trees 《潜伏语义分析的理论及其应用(第2页)》