地方历史文献存取、检索的趋势以及遇到的问题
摘 要 阐述缩微技术和数字影像技术所提供的资料保存方法、策略和其中产生的问题。主要介绍丹麦图书馆等文献机构在提供书目记录的同步电子存取方面所进行的卓有成效的合作。对获取数字化的源文献中信息的有效方法———索引和领域特定检索点进行了探讨。
关键词 地方文献 文献保存 提供途径 趋势 问题
一、导论
地方历史文献的首要用户应该是系谱专家以及研究地方文献的历史学家。在历史上,正是由于对这些材料的需要,在很多国家、州或者是省份、县以及乡镇都形成了相当数量的家谱和地方志学会。这些学会的职责就是收集书面资料、图片、大事记以及其他的古代器具,然后通过图书馆、博物馆以及发行出版物的方式,把这些资料提供给研究人员使用。也存在着这么一种情况,那就是这些学会以及馆藏后来就发展成了政府档案馆②。近年来,一些图书馆和档案馆开始创建家谱和地方志阅览室③,以此来满足系谱专家以及研究地方文献的历史学家进行研究的需要。
直到2001年,国际图联(IFLA)专业图书馆部下设了地方志和家谱小组,地方志和家谱的重要性才开始得到认同。这个小组的使命是:“……提供给从事地方文献和家谱的图书馆员一个在国际信息界发言的机会,为专家和图书馆、档案馆、博物馆以及其他相关的学会、机构之间的交流提供便利,鼓励扩大地方志和家谱文献的收藏,改善服务。”④我今天想与大家分享的信息均来自国际图联大会年会期间地方志和家谱小组组织的讨论会。
二、存取方式、策略以及出现的问题
上个世纪,引入新技术作为历史文献收集、存取和提供检索方式的趋势在不断进步。20世纪上半叶,作为存取和检索文献中所含信息的方式,图书馆、博物馆和档案馆(以下简称为“信息提供机构”)开始采用缩微技术。随之而来的是20世纪80年代之后,人类进入数字时代。数字时代以所谓“新媒体”的出现为典型特征,具体表现为如下形式:计算机技术、电子数据库、光学介质以及因特网和万维网。由此,在决定自身距离数字时代的差距以及何时步入数字时代的时候,对于如何管理馆藏传统资源,信息提供机构会面临一些重大的决择,经受严峻的考验。这里,只强调几个与信息提供机构所采用的存储方式和策略相关的问题,并着重阐述缩微技术以及数字化技术。
如上所述,缩微技术是一种成熟的存取技术。如果采用国际通用标准的话,缩微技术能够保证档案的品质。如果在理想状态下使用、存储,保存在银盐缩微胶片(Imagesonsilverfilm)之上的图片可以满足100年的使用需求。然而,对于缺少经费的图书馆和档案馆来说,提供空间和理想的存储条件所需要的开支问题就会显得更加重要。
数字成像是一项新的快速发展的技术。由于软硬件的升级,现在抓取的图片在五年后可能就变得不可读。目前数字存取仍然不稳定,如果存储在质量较差的光盘上,其寿命不过几个月而已。
为确保数字图片的存取,信息提供机构可能采取的策略如下:(1)存储在同一个服务器上的不同驱动器中;(2)存储在不同的服务器或者镜像中;(3)通过计算机输出胶片进行复制。由于需要定期把原有内容移入新的软硬件上,再加上不断更新的管理技术,前两种策略都会涉及到重复投入费用的问题。就当前来说,第三种策略使原始图像抓取的费用翻倍。从长远的角度来考虑,有人认为存取图片的费用会比把数字图片转化成缩微胶片的费用低,这是因为减少了存取费用。然而这一观点的支持者们一般都忽视了如下两部分费用:一般管理费用以及从事存取工作的IT工作人员的工资费用。
存取“数字原生资源”以及纸质文档的数字图片所面临的挑战,已经成为政府机构以及其他信息提供机构所关注的重大问题。因此,各国中央政府均在加大投入以解决这些问题。比如说,美国国会拨款9980万美元用于资助美国国会图书馆的国家数字信息基础设施和存取项目②。美国国家档案和文件管理局(NARA)刚刚宣布奖励2000万美元给两个主要的机构,以支持他们在接下来的五年里找到可行的解决办法③。因此,我们应该对于数字图片存档的未来充满希望。
三、提供检索并加以管理
图书馆和档案馆有责任为读者或者用户提供馆藏信息的访问途径。在此,我只是突出强调以下两种信息:书目数据和源文档。
1 访问书目数据
过去,人们对于书目数据的访问仅仅限于查阅书目卡片或者浏览图书馆和档案馆的书目单。然而,在数字时代,在线检索书目数据以及通过信息提供机构的网站进行检索已经变成现实。万维网为不同机构之间共享书目数据以及为读者提供对于大多数图书馆/档案馆的馆藏的同步检索提供了便利。
随着计算机的广泛应用,人们使用计算机能力的增强,加之资源丰富的网站的不断出现,使信息搜集者更多地把因特网和万维网作为信息的首要来源。在数字时代的虚拟世界里,图书馆/档案馆之间的物理障碍正在消失。信息搜集者不在乎他们是从什么机构去获取信息,关键在于他们要得到信息。
对于这一现象的认知引导各个机构在提供对于馆藏书目数据的检索途径上进行合作。一个最近的事例就是丹麦的“北日德兰半岛文化历史数据库(NOKS)”。这个数据库通过一个单一的网络门户为读者提供访问以下机构馆藏的途径,包括北日德兰县的3个历史档案馆,3个文化历史博物馆,2个艺术博物馆以及县中央图书馆。整个工程耗时1年,利用经费14.3万欧元。2003年书目数据的访问量达到11.5万条。
这种合作必须建立在不同种类的机构平等参与的基础之上。各种机构分别有一些根据档案馆、图书馆或者博物馆编目原则编写的书目数据。因为目标是提供跨机构的同步检索,所以这些书目数据必须采用统一的格式,或者必须找到一个能够连接不同编目系统的办法。
北日德兰半岛文化历史数据库采用的办法较为实用,他们利用现存的书目数据,通过连接所有参与机构的相同的主题词,实现预期的对于不同系统的同步检索的目标。因此,比如在图书馆系统搜索相关主题词“关注老年人”(careofseniorcitizens)同样也会获得档案馆的关于“老年人”(elderlypeople)的书目数据以及博物馆的关于“老年人”(seniorcitizens)的书目数据。
2 访问源文档
索引。简化检索的要求紧随着新电子传播工具的出现而出现。然而,要对数字图片里面的信息进行检索,我们必须首先建立图片的索引。索引方式可以是全文的、域的或者是两者合二为一④。全文检索需要返回到包含所查询的内容的每一张图片,这样的话,读者在真正找到自己需要的信息之前,就需要浏览很多不相关的图片。域检索只是查询那些被域数据特别标注的图片。这种方法,如果使用得当的话,可以使搜索更快,更准确;然而,如果使用全文检索,可以发现一些随机的有用的相关信息,而域检索却会漏掉这些信息。
全文检索只有满足如下两种条件的一种才成为可能:数字化的原文可以转化成被光学字符识别(OCR)软件识别的文本;或者原文是打字键入的。直到现在,光学字符识别软件只适用于识别已排字的或者印刷的文档。全文索引之所以更快、更经济是因为电脑可以完成,同时也需要手工编辑。光学字符识别软件对于进行那些系谱专家和历史学家非常感兴趣的手写文档的搜索就不是那么可靠了。这也就意味着,要制作全文索引,原文必须是打字键入的。虽然这项工程的规模以及成本看上去可能非常巨大,但是韩国正在采用这种方式,通过重新键入来制作传统家谱的数字化版本。
制作域索引是一项手工操作过程,需要灵活选择,使用一致的关键词。这种检索的制作费用要比在OCR帮助下制作全文索引昂贵,却比手工输入数据创建可搜索文本便宜。因此,选择使用何种索引,需要综合考虑如下因素:潜在读者的检索需求,文档的类型(印刷的还是手写的)以及制作索引的费用。
著录。传统的检索点,如:作者、标题、主题对于源文档提供了很高水平的检索点,但是查找到包含真正所需信息的文档的概率较低。数字化历史文献的用户需要这些书目数据包含更多的“粒度”(指“著录”)。
对于制作数字图片的索引来说,一种可能的办法就是制作对于特殊用户群体所需要的源文档的元数据,也就是学科———专业主题(domain-specificaccesspoints)。比如说,一个西方人要做家谱研究,现在正在查找目标个体一生中的重要事件(出生、婚姻以及死亡)的信息,这些事件发生在不同的时间、地点。如果源文档中的数据元素,如姓名、地点、日期等己经是源文档著录的检索点,搜索成功的概率就能得到极大的提高。
《地方历史文献存取、检索的趋势以及遇到的问题》