西北地方文献报刊索引数据库及主题标引
1 西北地方文献报刊索引数据库
1.1 建设具有民族特色的数据库在推进信息化建设中,保护和弘扬民族优秀的文化传统,已引起世界各国的普遍重视。西北地区地域辽阔,民族众多,在我国几千年的历史长河中积淀了丰富的历史、科技、文化知识,形成了各具特色的民族文献资源。因此,建设具有民族特色的数据库,是时代赋予我们的责任。
1.2 西北地方文献报刊索引主题标引的重要性西北地方文献是以西北为中心的记载物,反映西北这个特定区域在政治、经济、历史、文化教育、科技诸方面的信息,是地区发展的缩影,为人们提供了研究西北地区丰富而又难解的历史、现代及未来的有关资料。
地方文献的类型多种多样,报刊文献是其中的一种。它具有信息量大、传递周期短、内容相对客观、翔实等特点。但由于它的总量太大,有关的地方文献信息分散在不同时期、不同品种的报刊之中,仅靠浏览原始文献,迅速查检到有关资料,几乎是不可能的。地方文献报刊索引就是为解决这一问题而编制成的一种检索工具。在传统的手工检索时代,地方文献报刊索引表现为篇目索引或题录索引的形式,即将报刊中所载地方文献篇目按一定顺序编排起来,以利读者查找文章的所在位置。这种索引不反映文章的具体内容,只具有指向作用。它除了作为一种综合性的检索工具外,还可以在此基础上编制各种情报报导刊物,或围绕特定学科及专业进行定向报导和检索,以服务于地方的各种事业。
鉴于地方文献报刊索引的重要作用,甘肃省图书馆自50年代起开始编制西北五省地方文献报刊索引,至1997年,这套索引的回溯检索范围,包括陕、甘、宁、青、新五省的1752余种报刊,为西北地方文献报刊索引数据库的建设奠定了资源基础。由于西北地方文献报刊索引只是一种手工编排的分类篇目索引,索引项目包括篇名、著者、出版日期、卷期、版次和部分内容提要,限于当时的传统手工加工形式,对于涉及多学科、多主题的条目,只能着重考虑分类的第一需要,而其它相关主题则不能逐一得到表现。
进入计算机时代以来,以数据形式来处理地方文献信息已成为图书馆地方文献工作的必然趋势。计算机所具有的自动识别与排序功能,使地方文献信息的编排变得更加方便、更加快捷。通过全文扫描技术完成的报刊全文数据库,使得报刊上的地方文献信息得到更加充分的揭示和利用。由于计算机具有一次性输入、多途径输出的功能,因而在对地方文献信息进行存储与检索时,增加了篇目、著作、出版、文摘等多方面的途径,尤其是从主题途径检索地方文献信息的问题得到了很好地解决。
在西北地方文献报刊索引数据库中,分类标引与主题标引都是以揭示文献内在特征为目的的标引方法,只是揭示的角度有所不同。由于地方文献的史料特征极为明显,故地方文献的读者往往是从特定的事件、人物、时间、地域的角度入手进行检索。因而可以说主题检索是一种最直接反映地方文献内容特征的检索途径,也是建立检索工具和检索系统的基础和前提。由于地方文献中连续出版物本身所具有的特征,其主题标引的原则和方法与其它类型文献的标引有所不同。本文拟从西北地方文献报刊索引数据库的建设入手,探讨有关地方文献报刊信息主题标引的问题。
2 西北地方文献报刊索引数据库中的主题标引
2.1 词表的编制
报刊数据库与其它类型数据库相比,最突出的特点是要反映西北地方文献本身所具有的特征,同时还要满足适合地方文献用户特殊的检索需求。加之在主题标引方面,比馆藏书目数据库的标引深度要高,难度也大。因此,选择一部适合西北地方文献特征的主题词表是开展标引工作的首要问题。
由于地方文献的内容表现的地域性和专指性极强,用综合性的《汉语主题词表》来标引西北地方文献,则很难满足其主题标引的特殊需求,报刊索引的标引用词与时代发展同步,《汉语主题词表》作为阶段性产品,也很难满足对新事物的标引需求,所以西北地方文献主题词表需要在《汉语主题词表》的基础上自行编制。
由于编制先组式的主题词表需要一段相当长的时间,同时还要编制一系列的标引细则,这将会影响报刊索引数据库主题标引工作的迅速展开。因此,可以采取后控式编制词表的方式,即首先应确定一段时间为实验期,先进行地方文献的标引工作,由标引人员直接从报刊所载的地方文献信息内容中,选取有检索意义的关键词作为主题词,这种主题词是未经过规范的自然语言,也无词间关系可言,待积累了一定数量之后,再对其进行修改、充实,并参照《汉语主题词表》使之规范化,确定好词间关系和基本范畴,从而形成适用的词表。采用这种方式编制词表,比较适合于特殊类型文献主题词表的编制,并且选词更直观、专指性强,还能使标引工作与编制、修改词表同时进行,标引时不用考虑词间关系及查表抽词,所以对标引人员的要求也相对较低。目前,广东省中山图书馆的地方文献数据库系统主题标引就采用了这种方法。
地方文献主题词表中所收录的主题词来源主要有:
(1)《汉语主题词表》中已有的词汇。这是地方文献与非地方文献都使用的综合性词汇,它占将来的西北地方文献主题词表所收录词汇的绝大部分,由于是从《汉语主题词表》中选词,所以它们是相对规范的。
(2)《汉语主题词表》中没有的、带有地方文献特征的词汇、这部分词汇在未来的西北地方文献主题词表中所占比例不会很大,但它们在西北地方文献标引中出现频率相对较高,对于这部分词汇必须经过一段时间的数量积累,再加以规范。
(3)《汉语主题词表》作为阶段性产品,它的编制受时间的限制,对于编表以后新产生的一些词汇它不可能收录。在编制西北地方文献主题词表时要收录这部分词汇,并加以规范。
2.2 主题词字段的设置
无论是先有词表,还是先进行标引工作,在报刊数据库中,都需要设置若干个主题词字段,以便展开具体的标引工作。在设置主题词字段时,一定要反映地方文献的时空特征。地方文献的基本性质是地方史料,即所有的历史事件都离不开时间、地点和人物这几个因素,为了强调这几个因素,也为了使不同标引人员在不同时期内具有相同的工作标准,因此设计了“非控主题词”、“年代主题词”、“地域主题词”、“个人主题词”和“团体主题词”字段。
2.2.1 非控主题词
为了充分揭示文献内容和满足用户的使用需求,西北地方文献报刊索引数据库的主题标引,应根据主题法的一般原则,对所有的款目进行主题标引。此字段选词灵活性大,标引内容十分广泛,可控性弱,故称“非控主题词”。非控主题词对所有地方文献信息的内容范畴进行涵盖,也是以后编制地方文献主题词表时确定词表基本范畴的依据。
非控主题的标引方法与其它非地方文献资料的标引并无本质的不同。在标引非控主题词的过程中,标引人员除从文献题名中选取词汇外,还有必要从文章内容中选取标引词,所选的标引词是一些名词及词组。由于所选的词汇不是从固有的词表中抽出来的,标引词汇的逻辑概念和词间关系都不用事先确定,故称自由词。
尽管非控主题标引时选用的是自由词,但也有一些问题需要明确,在某些词汇不能准确表达文献的内容时,可选用词组来做主题词增强其专指性,能明显反应地方文献特征的词首选,同时,一些无实际检索意义的词不选。
2.2.2 可控主题词
由于“年代主题词”、“地域主题词”、“个人主题词”、“团体主题词”这四个字段相对规范,所以称为“可控主题词”。
地域主题所标引的不是整体地方文献的地域,而是文章内容涉及的某一具体区域的名称,或者给文章内容带来影响的区域名称。在标引中,如遇到旧有的行政区划名称或旧地名时,为反映某一地区名称的历史发展沿革,应将现行行政区划名称与旧有行政名称同时标引作为检索点,现有行政区划名称或新地名标在前面,旧行政区划名称或地名注于其后,可用括号括起。
年代主题标引的是文献内容所涉及的时间范围,而不是文献撰写或出版发行的时间。清以前的历朝历代均可使用“朝代/年号”的方法标引,中华民国时期(1919年前)可标引成“民国时期”,到了1920年以后可标引成“二十年代”、“八十年代”等。
个人主题和团体主题标引的是文章内容所涉及到某一具体机构、个人,或与某地方有关系的机构和个人。团体主题标引时,用机构和单位的标准全称。而个人主题的标引,是标具体人名,如果同一人物有本名与笔名时,要同时标引,清代人物或少数民族人物的名称较长时,一般应标引人物的全名。
总之,无论是非控主题词还是可控主题词,报刊标引人员都要站在用户的角度,即从索引的终极使用目的出发,给地方文献实际使用者提供报刊中有价值的地方文献信息。因此,在对报刊数据库进行主题标引过程中一定要确定好标引深度。西北地方文献报刊索引的标引深度,则取决于地方文献各类用户的检索需求,这些用户所从事研究的学科内容及其深入程度,就是文献标引人员确定标引文献内容及深度的依据。
〔出处〕 图书馆学研究 2002(7)
《西北地方文献报刊索引数据库及主题标引》