Don R.Swanson的情报学学术成就的方法论意义与启示
【内容提要】随着科学技术的飞速发展,专业分工越来越细,跨专业的沟通变得更加困难,而一个专业领域的信息可能对另一个专业领域是有价值的,一定存在着某种隐含的有价值的关联,而以常规的方式是检索不到这种关联的。美国芝加哥大学情报学教授Don.R Swanson创立了一种情报学方法--基于非相关文献的知识发现方法及人机交互系统Arrowsmith,很好地解决了这个问题。本文详尽地介绍了Swanson的情报学方法的产生背景、概……
情报学是一门成长中的年轻学科,一般认为,以V.Bush在1945年发表的著名论文“As We May Think”为开端,迄今为止已有50余年的历史[1]。从情报学的发展看,经历了艰难和曲折的历程,情报学与其他教科学研究相比明显滞后,尤其是近年来情报学的发展正面临着日益严重的危机和挑战,其根本原因在于理论的困乏和方法论的建设力度不够。情报学发展至今,仍然缺乏纯情报学的专门方法,而多是借鉴和移植其他相关学科的方法,这样严重影响了情报学的学科地位。如果不能从理论和实践两方面来建设自己的方法论体系,就难以把情报学当作一门学科来发展,就不能在软科学界获得自己应有的地位,这也是目前情报学界面临的最大挑战之一。
1985年美国芝加哥大学的Don R.Swanson教授创立了一种纯情报学的研究方法——基于非相关文献的知识发现,仿佛一股清新的空气为情报学带来了新的活力。于2000年,美国情报科学与技术学会(ASIST)因为Swanson独特的情报学方法授予他该学会的最高成就奖,该学会对他的评价是:Swanson是一位完美的情报学家,他为基于文献的知识发现研究奠定了理论基础,他所开创的情报学方法和对情报检索功能的扩展使情报学的地位得到了提升。Swanson出色的工作指明了“情报学到底是什么”和“情报学家应当做什么”,由于他在非相关文献领域所做的先驱性的研究工作,Swanson已成为情报科学应努力追求的目标和方向。
1 非相关文献的知识发现
1.1 产生背景
在四十多年以前,科学家就在积极地探讨科学知识分裂化(fragmentation of scientific knowledge)现象,但一直没有很好的解决方案。美国芝加哥大学的教授Don R.Swanson从三个方面对知识片断理论作出了说明[2]:
(1)客观知识的总量与人类吸收知识的能力之间存在着巨大的差距,并且这种差距在不断地扩大。
(2)在信息爆炸时代,随着科学技术的越来越专业化,跨学科的信息传递变得更加困难,就会产生知识的分裂,并且随着知识的持续增长,这种现象会更加严重。
(3)一个专业领域的信息可能对另一个专业领域是有价值的,跨学科间一定存在着潜在的未被发现的关联。事实上文献间隐性的关联数量可能远多于显性的相互引用的关联数,并且这种隐性关联的发现比信息本身的增长更有意义。
Swanson通过深入细致的研究,证实了上述现象的存在。Swanson在1985年一个偶然的机会,发现两篇医学文献放在一起,会揭示出一个问题的答案,而这个答案是从单独一篇文献得不到的。这预示着在医学文献中存在着大量的未被发现的隐含的关联。举例来说:A表示一种物质的摄入可能导致一种独特的生理改变B,而B又作用于身体的某器官或一种疾病C。如果把两类文献放在一起加以研究就会获得有用的信息即A作用于C,而这种信息是不能根据单独一类文献得到的,我们称AB和BC这两种文献是互补的。并且,一个专业领域的文献的作者和读者一般并不熟知另一专业领域的文献,也就是说两类文献从没有或很少被共同引用并且也不相互引用,我们称这两类文献是相互独立的,也就是非相关的。这种情况在两个不同的专业领域是经常存在的,因此几乎没有人考虑到把两类文献放在一起加以研究,也不会有人注意到A和C之间可能存在的隐含联系。互补性和非相关性描述了在公开信息中存在着未被发现的有价值信息的模型结构。图1说明了在目标文献A和源文件C之间有很多中间文献B[3]。
附图
图1 互补的非相关文献
1.2 Swanson的知识发现方法
Swanson认为在已经发表的非相关文献中可以推理得到未被发现的知识,并举出了一些令人信服的例证。他把这些通过推理而得到的有价值信息称为“公开文献中未被发现的知识”。公开是指已发表的文献,直到有人检索到相关的文献并注意到它们之间的逻辑关联才会推理出新的知识。由于这些文献是关于不同主题或属于不同学科的,从中推理出新的知识可能需要相当长的时间或凭借某一次很好的运气。
Swanson解决了这个问题,并相应设计出了一套计算机软件系统——Arrowsmith(详细介绍见下文)去搜索非相关文献中的这种联系,目的在于帮助研究者从中找到新的有科学价值的信息。Swanson的工作得到情报学界的普遍赞同,Swanson称他的方法为基于文本的情报学方法。
最近Swanson与伊利诺斯大学精神病学助理教授Neil R.Smalheiser合作,主要致力于以下的研究,A和C通过实验一定存在某种联系,而想知道他们是如何关联的,或者说A和C的可能相关性究竟是什么。
1.3 什么是Arrowsmith
常规的MEDLINE检索方式是通过给定的题目检索已发表的文献。然而,这种方式在进行科学发现时存在着局限性[4]:(1)确认和评价新的、未被验证的科学假设。(2)进行新的临床实验来探讨两个不同领域之间的联系。为了扩展MEDLINE检索功能,克服其局限性,Swanson于1991年设计了一个人机交互的软件系统并制定了相应的数据库检索策略,称为Arrowsmith,用于分析研究非相关的互补文献,更加易于在两组生物医学文献间发现互补性结构[8]。
Arrowsmith只是扩展了MEDLINE检索功能,但不能代替常规的检索,因为它需要常规检索的结果作为输入的数据,使研究者发现文献间新的关联和形成新颖的科学假设,当然前提是某领域的知识可能在另一领域不被人所知而具有更大的价值。
使用者通常以一个有关两个实体的问题开始,例如饮食A和疾病C,通过常规的检索方式A和C没有交集,那么物质A或A的缺乏是否会影响疾病C呢?假如存在这样的情况,A影响B,而B又作用于C,那么就会推理出A影响C,即使在有关A和C的文献中分别提到了B,这种A和C之间存在的隐含的关联通过常规的数据库检索是不能发现的,那么Arrowsmith很好地解决了这个问题,前提是这些关联能在标题中反映出来。
Arrowsmith系统是从数据库记录的标题中提取自然语言加以并列,供研究者加以观察,以促进发现进程而不是使发现过程
Arrowsmith系统是可以免费使用的,可以登录到http://kiwi.uchicago,edu或http://Arrowsmith.psych.uic.edu上,后面的网站装载的Arrowsmith的最新版本,已较上个版本做了很大改进,打破了Arrowsmith只能应用于标题的局限性,可以是文摘和主题词,并且Arrowsmith与PubMed实现了紧密结合,使用Arrowsmith变得更加容易、快捷和灵活。
1.4 Swanson的情报学方法的理论基础
英国的布鲁克斯根据波普尔(Karl Popper)的“三个世界”理论(即“世界1”是客观物质世界,“世界2”是主观知识或精神状态的世界,“世界3”是客观知识世界)的哲学理论出发,提出了情报学的理论任务,指出情报学是关于客观知识的分析、组织、传播和利用的科学。情报学家和图书馆学家则主要研究“世界2”与“世界3、世界1”间的相互作用,并对“世界3”中的各种记录下来的知识进行搜集和组织,以供利用。现在,人们要探索“世界1”,就非得同时探索“世界3”不可。人们从“世界3”取得所必须的知识,并利用这种知识将“世界1”和“世界2”联系起来,“世界2”作用于“世界1”的结果,记录下来又成为“世界3”中的一部分。整个这一过程就是情报过程,情报就是这种过程中的动态的知识[5]。
公开文献中存在着未发现的知识正是根据波普尔的客观知识世界存在着至今未明确表述出来的隐含知识,并且由于概念的排列组合使客观知识世界的未发现知识持续地增长[6]。
客观知识世界中的知识增长是不受客观物质世界所获得知识的局限,客观知识世界与客观物质世界、主观世界一样,同样可以进行新的探索与发现。每一个新概念的产生,将会有大量的与现有的其他概念的潜在关联,因这些关联而可能产生的新知识等待着人们去发现。这就是Swanson的情报学方法存在和发展的哲学基础。
1.5 Swanson的知识发现方法的成功应用
Swanson的第一个基于文献的知识发现方法的成功案例就是在1986年有关雷诺病与食用鱼油的研究。第二个例证是1988年有关偏头痛和镁缺乏的研究。镁缺乏会导致某种生理改变,这种 《Don R.Swanson的情报学学术成就的方法论意义与启示》
本文链接地址:http://www.oyaya.net/fanwen/view/62479.html
情报学是一门成长中的年轻学科,一般认为,以V.Bush在1945年发表的著名论文“As We May Think”为开端,迄今为止已有50余年的历史[1]。从情报学的发展看,经历了艰难和曲折的历程,情报学与其他教科学研究相比明显滞后,尤其是近年来情报学的发展正面临着日益严重的危机和挑战,其根本原因在于理论的困乏和方法论的建设力度不够。情报学发展至今,仍然缺乏纯情报学的专门方法,而多是借鉴和移植其他相关学科的方法,这样严重影响了情报学的学科地位。如果不能从理论和实践两方面来建设自己的方法论体系,就难以把情报学当作一门学科来发展,就不能在软科学界获得自己应有的地位,这也是目前情报学界面临的最大挑战之一。
1985年美国芝加哥大学的Don R.Swanson教授创立了一种纯情报学的研究方法——基于非相关文献的知识发现,仿佛一股清新的空气为情报学带来了新的活力。于2000年,美国情报科学与技术学会(ASIST)因为Swanson独特的情报学方法授予他该学会的最高成就奖,该学会对他的评价是:Swanson是一位完美的情报学家,他为基于文献的知识发现研究奠定了理论基础,他所开创的情报学方法和对情报检索功能的扩展使情报学的地位得到了提升。Swanson出色的工作指明了“情报学到底是什么”和“情报学家应当做什么”,由于他在非相关文献领域所做的先驱性的研究工作,Swanson已成为情报科学应努力追求的目标和方向。
1 非相关文献的知识发现
1.1 产生背景
在四十多年以前,科学家就在积极地探讨科学知识分裂化(fragmentation of scientific knowledge)现象,但一直没有很好的解决方案。美国芝加哥大学的教授Don R.Swanson从三个方面对知识片断理论作出了说明[2]:
(1)客观知识的总量与人类吸收知识的能力之间存在着巨大的差距,并且这种差距在不断地扩大。
(2)在信息爆炸时代,随着科学技术的越来越专业化,跨学科的信息传递变得更加困难,就会产生知识的分裂,并且随着知识的持续增长,这种现象会更加严重。
(3)一个专业领域的信息可能对另一个专业领域是有价值的,跨学科间一定存在着潜在的未被发现的关联。事实上文献间隐性的关联数量可能远多于显性的相互引用的关联数,并且这种隐性关联的发现比信息本身的增长更有意义。
Swanson通过深入细致的研究,证实了上述现象的存在。Swanson在1985年一个偶然的机会,发现两篇医学文献放在一起,会揭示出一个问题的答案,而这个答案是从单独一篇文献得不到的。这预示着在医学文献中存在着大量的未被发现的隐含的关联。举例来说:A表示一种物质的摄入可能导致一种独特的生理改变B,而B又作用于身体的某器官或一种疾病C。如果把两类文献放在一起加以研究就会获得有用的信息即A作用于C,而这种信息是不能根据单独一类文献得到的,我们称AB和BC这两种文献是互补的。并且,一个专业领域的文献的作者和读者一般并不熟知另一专业领域的文献,也就是说两类文献从没有或很少被共同引用并且也不相互引用,我们称这两类文献是相互独立的,也就是非相关的。这种情况在两个不同的专业领域是经常存在的,因此几乎没有人考虑到把两类文献放在一起加以研究,也不会有人注意到A和C之间可能存在的隐含联系。互补性和非相关性描述了在公开信息中存在着未被发现的有价值信息的模型结构。图1说明了在目标文献A和源文件C之间有很多中间文献B[3]。
附图
图1 互补的非相关文献
1.2 Swanson的知识发现方法
Swanson认为在已经发表的非相关文献中可以推理得到未被发现的知识,并举出了一些令人信服的例证。他把这些通过推理而得到的有价值信息称为“公开文献中未被发现的知识”。公开是指已发表的文献,直到有人检索到相关的文献并注意到它们之间的逻辑关联才会推理出新的知识。由于这些文献是关于不同主题或属于不同学科的,从中推理出新的知识可能需要相当长的时间或凭借某一次很好的运气。
Swanson解决了这个问题,并相应设计出了一套计算机软件系统——Arrowsmith(详细介绍见下文)去搜索非相关文献中的这种联系,目的在于帮助研究者从中找到新的有科学价值的信息。Swanson的工作得到情报学界的普遍赞同,Swanson称他的方法为基于文本的情报学方法。
最近Swanson与伊利诺斯大学精神病学助理教授Neil R.Smalheiser合作,主要致力于以下的研究,A和C通过实验一定存在某种联系,而想知道他们是如何关联的,或者说A和C的可能相关性究竟是什么。
1.3 什么是Arrowsmith
常规的MEDLINE检索方式是通过给定的题目检索已发表的文献。然而,这种方式在进行科学发现时存在着局限性[4]:(1)确认和评价新的、未被验证的科学假设。(2)进行新的临床实验来探讨两个不同领域之间的联系。为了扩展MEDLINE检索功能,克服其局限性,Swanson于1991年设计了一个人机交互的软件系统并制定了相应的数据库检索策略,称为Arrowsmith,用于分析研究非相关的互补文献,更加易于在两组生物医学文献间发现互补性结构[8]。
Arrowsmith只是扩展了MEDLINE检索功能,但不能代替常规的检索,因为它需要常规检索的结果作为输入的数据,使研究者发现文献间新的关联和形成新颖的科学假设,当然前提是某领域的知识可能在另一领域不被人所知而具有更大的价值。
使用者通常以一个有关两个实体的问题开始,例如饮食A和疾病C,通过常规的检索方式A和C没有交集,那么物质A或A的缺乏是否会影响疾病C呢?假如存在这样的情况,A影响B,而B又作用于C,那么就会推理出A影响C,即使在有关A和C的文献中分别提到了B,这种A和C之间存在的隐含的关联通过常规的数据库检索是不能发现的,那么Arrowsmith很好地解决了这个问题,前提是这些关联能在标题中反映出来。
Arrowsmith系统是从数据库记录的标题中提取自然语言加以并列,供研究者加以观察,以促进发现进程而不是使发现过程
模式化或自动化。从标题和文摘中的自然语言中识别出关联性需要具有一定的判断力和广泛的背景知识。
Arrowsmith系统是可以免费使用的,可以登录到http://kiwi.uchicago,edu或http://Arrowsmith.psych.uic.edu上,后面的网站装载的Arrowsmith的最新版本,已较上个版本做了很大改进,打破了Arrowsmith只能应用于标题的局限性,可以是文摘和主题词,并且Arrowsmith与PubMed实现了紧密结合,使用Arrowsmith变得更加容易、快捷和灵活。
1.4 Swanson的情报学方法的理论基础
英国的布鲁克斯根据波普尔(Karl Popper)的“三个世界”理论(即“世界1”是客观物质世界,“世界2”是主观知识或精神状态的世界,“世界3”是客观知识世界)的哲学理论出发,提出了情报学的理论任务,指出情报学是关于客观知识的分析、组织、传播和利用的科学。情报学家和图书馆学家则主要研究“世界2”与“世界3、世界1”间的相互作用,并对“世界3”中的各种记录下来的知识进行搜集和组织,以供利用。现在,人们要探索“世界1”,就非得同时探索“世界3”不可。人们从“世界3”取得所必须的知识,并利用这种知识将“世界1”和“世界2”联系起来,“世界2”作用于“世界1”的结果,记录下来又成为“世界3”中的一部分。整个这一过程就是情报过程,情报就是这种过程中的动态的知识[5]。
公开文献中存在着未发现的知识正是根据波普尔的客观知识世界存在着至今未明确表述出来的隐含知识,并且由于概念的排列组合使客观知识世界的未发现知识持续地增长[6]。
客观知识世界中的知识增长是不受客观物质世界所获得知识的局限,客观知识世界与客观物质世界、主观世界一样,同样可以进行新的探索与发现。每一个新概念的产生,将会有大量的与现有的其他概念的潜在关联,因这些关联而可能产生的新知识等待着人们去发现。这就是Swanson的情报学方法存在和发展的哲学基础。
1.5 Swanson的知识发现方法的成功应用
Swanson的第一个基于文献的知识发现方法的成功案例就是在1986年有关雷诺病与食用鱼油的研究。第二个例证是1988年有关偏头痛和镁缺乏的研究。镁缺乏会导致某种生理改变,这种 《Don R.Swanson的情报学学术成就的方法论意义与启示》