保存桌面快捷方式 - - 设为首页 - 手机版
凹丫丫旗下网站:四字成语大全 - 故事大全 - 范文大全
您现在的位置: 范文大全 >> 文史论文 >> 文字学论文 >> 正文

潜伏语义分析的理论及其应用


受试写一篇文本材料的摘要,然后再看他们从文本中获取了什么信息。这意味着把读者的文本表征(认知模型)和原来的文本表征加以比较,即把摘要中每一个句子的信息和文本中的句子信息加以比较。但是要对信息进行比较并非易事,它要求扫描原文,找出信息的所在。而且受试所写的摘要往往并不全都采用原文中的词语。所以光比较词语也不成。研究人员要比较的是摘要和原来文本的语义内容。Kintsch(1988,1998)所提出的构建整合模型(construction-integration  model)就是一个观察读者对文本表征的认知模型,它把读者摘要的语义信息表示为一些语义成分组合,称之为命题(prepositions)。文本中的每一个子句是一个命题(如the  red  rose和the  rose  is  red,都属于一个命题)。这些命题根据各种范畴连接起来,例如看它们是否共享中项(arguments)和指称(referents)。一个文本的所有命题组合起来就成为文本结构。不少实验都证明命题是人们的心理处理单位(如Graesser1981)。对文本和受试对它回述进行命题分析可以对一系列语义基本元素加以比较,其好处是这种比较并非表层结构的比较。但问题是,目前还没有生成命题的自动化程序,因为计算机必须对文本进行正确的语法分析,并且了解词语的正确意义。于是可以利用计算机来对语义相似性进行比较的潜伏性语义分析就应运而生了。
  LSA原来是建筑在以语义内容的基础上以改善信息提取的一种设计,称为潜伏性语义索引(Latent  Semantic  Indexing,LSI)。在现实生活里,往往同一个语义概念表示为不同的词语,如果以原词作为检索单位,就费时失事。例如“电子计算机”往往又可以简称为“计算机”或“电脑”,甚至“服务器”和“机器”。如果在检索中只键入任何一种说法就能查出“电子计算机”,不是方便得多吗?这种方法还可以避免同义性的问题。LSA的基本假设是不同文件(文件可大可小,可以是词语所出现的整个语境,也可以是某些文本、段落和句子)的词语使用型式存在着某种“潜伏的”结构,而使用一些统计的方法可以估量出这种潜伏性结构。这些方法通过分析词语和文件之间的联系,产生一个在相同语境中使用的词语将会在语义上更为密切联系的表征。例如:
  (1)The  U.S.S.Nashville  arrived  in  Colon  harbor  with  42  marines
  (2)With  the  warship  in  Colon  harbor,the  Colombian  troops  withdrew.
  "warship"所出现的语境(LSA称之为“向量”,vector)和"Nashville"所出现的语境相似,两者的上下文都有"Colon"和"harbor"。LSA所使用的技巧可以自动找出这些更深层的联系的结构。
  又如我们读到下面的句子:
  (3)John  is  Bob's  brother  and  Mary  is  Anne's  mother.
  (4)Mary  is  Bob's  mother.
  这两句话里并没有出现表示亲属关系的sister,daughter,father,son等词语,但第(4)句使我们意识到Bob和Ann是兄弟姐妹,Anne是John的女儿,John是Ann的父亲,Bob是Mary的儿子。当然LSA所推断出的词际关系往往并非完全符合逻辑,它所揭示的仅是相似性关系。这些关系相互牵连和制约,可以产生出一些模糊的间接推断,关系上可强可弱,逻辑上可对可错。
  3.怎样做LSA?
  LSA以大规模的语料库为基础,使用了一种完全自动化的数学/统计技巧来抽取和推断词际关系,这种技巧就是线性代数中的奇异值分解(Singular  Value  Decomposition,SVD)。从概念上说,LSA模型可以理解为一个具有三层的神经网络系统。在SVD里,一个m×n的长方形矩阵{A}(m是行,n是列,m>n),被分解为三个矩阵:一个是m×n的成分矩阵{U},把原来的列的实体表示为派生的正交因子值的向量;另一个矩阵{w}用同样的方法表示原来列N×N的实体;第三个矩阵{V}的转置(transpose)是一个包括有标度值的直角矩阵(N×N)。  
{A}={U}{w}{V}[T]

  
  这三个矩阵相乘就可以恢复原来矩阵。如果我们在恢复时减少维数,就可以取得压缩语义空间的效果。
  附图
  下面是一个常被引用的例子:现有9条技术备忘录的题目,其中5条是关于人和计算机交互作用的,4条是关于数学图论的。这些题目在概念上不大相关,它们构成一个9列12行的矩阵,每一行是在这些题目中出现起码两次的实义词(均标为斜体),整理为表1。
  c1:Human  machine  interface  for  ABC  computer  applications
  c2:A  survey  of  user  opinio

n  of  computer  system  response  time
  c3:The  EPS  user  interface  management  system
  c4:System  and  human  system  engineering  testing  of  EPS
  c5:Relation  of  user  perceived  response  time  to  error  measurement
  m1:The  generation  of  random,  binary,ordered  trees
  m2:The  intersection  graph  of  paths  in  trees
  m3:Graph  minors  IV:Widths  of  trees

《潜伏语义分析的理论及其应用(第2页)》
本文链接地址:http://www.oyaya.net/fanwen/view/206405.html

★温馨提示:你可以返回到 文字学论文 也可以利用本站页顶的站内搜索功能查找你想要的文章。