图书馆与网络信息资源编目
【内容提要】着重论述了图书馆对网络信息资源编目的必要性、可行性,以及编目工具——元数据DC、MARC和可扩展标识语言XML,介绍了目前国际图书馆界在这方面取得的进展。
【摘 要 题】图书情报工作论坛
【英文摘要】This paper discusses the importance ……
1.对网络信息资源编目的必要性
图书馆对网络信息资源进行编目的意义在于:一是把网络信息资源及其服务有机地纳入到图书馆服务中来,这意味着图书馆利用网络信息资源补充已有馆藏和提高图书馆满足读者信息需求的能力;二是运用和移植图书馆学、情报学在组织文献信息和书目控制文献的研究成果和实践经验,提高网络信息资源的有序化程度。
1.1随着数字化革命的深入和Internet的飞速发展,网络信息资源呈现出几何级数量增长,据国外最新研究结果表明,因特网上可编索引的网页已超过10亿页,仅此一项,其增长规模已超越了现有的非网络资源,信息资源从内容到形式都发生了质的变化。网络信息资源同非网络资源相比,具有地理上分散、组织上无序、数据类型多、变幻多端的特点。
无序扩张的网络信息资源,一方面使网上信息包罗万象,良莠不齐,信息分布、信息组合错综复杂,信息污染严重;另一方面,广大用户,即信息的需求者,面对如此浩瀚的信息海洋,无法快捷地获取自己所需的信息,对检索和获取信息的低效感到无奈。解决二者之间的矛盾,为用户提供便利的信息获取途径和方法,就图书馆而言,最为有效的方法即是将网络信息资源纳入图书馆的服务当中,对其进行编目管理。
1.2网络中存在着巨大数字化信息,用户要想快速准确地检索到所需信息,就需要一个机构能够承担起网络信息的整序工作。目前,以网络搜寻为目的的搜索引擎的出现(如国外的Yahoo、infoseek、altavista,国内的网易、搜狐等),虽然在浩如烟海的网络资源中起到了一定的导航作用,由于其处理方式是通过自动调用程序在网际网络上选取网页,然后使用全文检索的技术,以自动拆字词作为索引的方式,建立其数据库作为检索的基础,这种方式的不足之处在于其查全率高,但查准率低,以及缺乏一致性的用户界面。检索出的篇目太多,有时甚至有成千上万篇,而其中真正有用的信息并不多。
这种情况下,图书馆应发挥自己的职业优势,图书馆对非网络信息资源的编目已有了丰富的经验,将其应用于网络信息资源的编目将起到事倍功半的效果,由图书馆对网络信息资源进行选择、加工、整理,对网络上的各种信息进行筛选、过滤、描述、标引,以便于查寻的方式把有价值的信息提供给用户,这是利用网络资源最为有效的途径之一。
2.网络信息资源编目的可行性
尽管网络信息资源具有增长迅速、数量巨大、流动性大、稳定性小的特点,它与非网络信息资源仍具有共性,可以这样比喻,整个因特网就像一个巨大的图书馆,各个网站就是种类不同的图书,而每一个网页就是图书中的一页,共性的存在,是对网络信息资源进行编目的前提条件。
美国OCLC(Online Computer Library Center)对网络信息资源的编目进行了有益的尝试,并且取得了重大的进展。OCLC从1991年开始就致力于应用计算机技术对因特网上的资源进行精心筛选和标引。通过试验,证实了MARC和AACR2可适用于网络信息资源,同时提出了修改完善MARC建议,在USMARC中新增加了856字段—电子网址和索取字段。由于MARC本身的局限性,如结构复杂、著录项目过于烦琐,要求专业性强,要受过专门训练的编目员来做等等,虽保证了著录的精确性,但著录速度慢,工作效率低,无法满足海量的网络资源的整序需求。
于是人们开始转向研究一种新的著录项目,一种用以描述网络信息资源的格式和工具。“元数据”这一概念被及时推出,元数据的产生为网络信息资源的组织提供了重要手段。到目前为止,世界上已开发出并付诸使用的元数据有许多种,如都柏林核心元数据(Dublin Core)、频道定义格式(CDF)、艺术作品描述目录(CDWA)、资源描述框架(RDF)等等。
有了高效实用的网络信息描述工具以后,针对网络信息资源编目的特殊性,1998年8月OCLC研究署向研究顾问委员会提交了CORC(Cooperative Online Resource Catalog)计划的构想,这一计划尝试将传统的图书馆编目规则与技术—文献信息的选择、描述、标引及利用等运用于网络信息的存取,OCLC于2000年7月正式推出了CORC产品,并向美国和全世界推广。CORC与商业的搜索引擎不同之处在于它有人工干预,网络资源是由图书馆员挑选的,它的目标是将传统的图书馆编目技术与先进的计算机技术相结合形成一个新系统,能够明显优于现有的搜索引擎。
3.编目工具
图书馆员一向以善于组织信息著称,我们曾经有效地完成了印刷型资料的编目组织工作,当然有能力完成网络信息资源编目的使命。
目前图书馆界对网络信息资源编目的工具以MARC和DC为主,对网络信息资源进行著录的格式应是基于XML的DC描述。
3.1MARC
MARC格式是美国国会图书馆从1963年开始研究应用计算机对图书进行编目的工具,1971年,美国国家标准局将USMARC确定为美国国家标准,1977年,国际图联(IFLA)发布UNIMARC格式,中国根据UNIMARC的框架体系和内容,结合中国的特点编制了CNMARC。
MARC是用于描述、存储、交换、控制和检索的一套机读书目数据标准,它开始主要是针对印刷型书本的描述,对网络信息资源进行编目,是通过在MARC中增加856字段,即“电子资源地址与存取”,并采用5XX字段记录资源格式的方法来进行的。它的数据结构严密,能很好地描述电子信息,尤其是在检索点的选取原则上,能确保其数据元索组成具有统一性,有利于资源交换。此外,这种经过编目人员过滤、筛选过的信息,确保了数据描述的可靠性、完全性和精确性。
856字段主要记录被著录的数字对象或与之相关的其它电子资源的存储地址和存取方式,是可重复、必备字段,包含27个子字段。专业水准的分类和准确的记录这两大特色将使其能在Internet中占有一席之地。但用MARC格式编目Internet的成本相当高,由于网络信息地址时常更改,为了维护856字段链接的有效性,需要耗费相当多的财力、人力和时间,编目的速度远远跟不上网络信息资源增长的速度,因此这种高成本的编目方式只适用于编目一些最重要的网络资源。
3.2DC
目前对因特网上
DC包含15个元素,依据其所描述内容的类别和范围可分为三组:a、对资源内容的描述;b.对知识产权的描述;c、对外部属性的描述。对资源内容描述类包括:Title、Subject、Description、Source、Language、Relation、Coverage。对知识产权的描述包括:Creator、Publisher、Contributor、Rights。对外部属性的描述包括:Date、Type、Format、Identifier。
DC同MARC相比具有以下优点:
· 格式简单且易于使用:因它只有15个元素,易于理解,适合各种背景的人群使用。
· 具有通用性:15个元素可自由选用及重复使用,元素的含义不因其是否嵌入所描述的资源而受到影响。它支持任何内容的资源描述,使得跨学科的语义描述有了可操作性。
· 具有兼容性:DC通过RDF框架形成了资源描述的基础,对基于WEB的元数据提供了灵活的语法基础,如可内嵌入HTML、XML语言,各种浏览器均支持它。
· 具有可扩展性:可根据实际情况,通过使用限定词能够实现扩展描述的方法。
第七次都柏林核心研讨会后,对DC进行了重大改进,DC与MARC之间映射更加一致,接近一一对应于MARC的许多字段,有利于将DC元数据记录集成到图书馆原有的基于MARC的OPAC系统。
3.2XML
图书馆在对网络信息资源编目过程中,采用DC作为网络信息资源的著录工具、XML文档结构作为著录格式是使网络信息资源有序化的理想模式。
XML是一种区别于HTML和SGML的可扩展标识语言,它不象SGML那样复杂,又能象HTML那样可在WEB上传送,它已广泛应用于互联网上 《图书馆与网络信息资源编目》
本文链接地址:http://www.oyaya.net/fanwen/view/62642.html
【摘 要 题】图书情报工作论坛
【英文摘要】This paper discusses the importance ……
1.对网络信息资源编目的必要性
图书馆对网络信息资源进行编目的意义在于:一是把网络信息资源及其服务有机地纳入到图书馆服务中来,这意味着图书馆利用网络信息资源补充已有馆藏和提高图书馆满足读者信息需求的能力;二是运用和移植图书馆学、情报学在组织文献信息和书目控制文献的研究成果和实践经验,提高网络信息资源的有序化程度。
1.1随着数字化革命的深入和Internet的飞速发展,网络信息资源呈现出几何级数量增长,据国外最新研究结果表明,因特网上可编索引的网页已超过10亿页,仅此一项,其增长规模已超越了现有的非网络资源,信息资源从内容到形式都发生了质的变化。网络信息资源同非网络资源相比,具有地理上分散、组织上无序、数据类型多、变幻多端的特点。
无序扩张的网络信息资源,一方面使网上信息包罗万象,良莠不齐,信息分布、信息组合错综复杂,信息污染严重;另一方面,广大用户,即信息的需求者,面对如此浩瀚的信息海洋,无法快捷地获取自己所需的信息,对检索和获取信息的低效感到无奈。解决二者之间的矛盾,为用户提供便利的信息获取途径和方法,就图书馆而言,最为有效的方法即是将网络信息资源纳入图书馆的服务当中,对其进行编目管理。
1.2网络中存在着巨大数字化信息,用户要想快速准确地检索到所需信息,就需要一个机构能够承担起网络信息的整序工作。目前,以网络搜寻为目的的搜索引擎的出现(如国外的Yahoo、infoseek、altavista,国内的网易、搜狐等),虽然在浩如烟海的网络资源中起到了一定的导航作用,由于其处理方式是通过自动调用程序在网际网络上选取网页,然后使用全文检索的技术,以自动拆字词作为索引的方式,建立其数据库作为检索的基础,这种方式的不足之处在于其查全率高,但查准率低,以及缺乏一致性的用户界面。检索出的篇目太多,有时甚至有成千上万篇,而其中真正有用的信息并不多。
这种情况下,图书馆应发挥自己的职业优势,图书馆对非网络信息资源的编目已有了丰富的经验,将其应用于网络信息资源的编目将起到事倍功半的效果,由图书馆对网络信息资源进行选择、加工、整理,对网络上的各种信息进行筛选、过滤、描述、标引,以便于查寻的方式把有价值的信息提供给用户,这是利用网络资源最为有效的途径之一。
2.网络信息资源编目的可行性
尽管网络信息资源具有增长迅速、数量巨大、流动性大、稳定性小的特点,它与非网络信息资源仍具有共性,可以这样比喻,整个因特网就像一个巨大的图书馆,各个网站就是种类不同的图书,而每一个网页就是图书中的一页,共性的存在,是对网络信息资源进行编目的前提条件。
美国OCLC(Online Computer Library Center)对网络信息资源的编目进行了有益的尝试,并且取得了重大的进展。OCLC从1991年开始就致力于应用计算机技术对因特网上的资源进行精心筛选和标引。通过试验,证实了MARC和AACR2可适用于网络信息资源,同时提出了修改完善MARC建议,在USMARC中新增加了856字段—电子网址和索取字段。由于MARC本身的局限性,如结构复杂、著录项目过于烦琐,要求专业性强,要受过专门训练的编目员来做等等,虽保证了著录的精确性,但著录速度慢,工作效率低,无法满足海量的网络资源的整序需求。
于是人们开始转向研究一种新的著录项目,一种用以描述网络信息资源的格式和工具。“元数据”这一概念被及时推出,元数据的产生为网络信息资源的组织提供了重要手段。到目前为止,世界上已开发出并付诸使用的元数据有许多种,如都柏林核心元数据(Dublin Core)、频道定义格式(CDF)、艺术作品描述目录(CDWA)、资源描述框架(RDF)等等。
有了高效实用的网络信息描述工具以后,针对网络信息资源编目的特殊性,1998年8月OCLC研究署向研究顾问委员会提交了CORC(Cooperative Online Resource Catalog)计划的构想,这一计划尝试将传统的图书馆编目规则与技术—文献信息的选择、描述、标引及利用等运用于网络信息的存取,OCLC于2000年7月正式推出了CORC产品,并向美国和全世界推广。CORC与商业的搜索引擎不同之处在于它有人工干预,网络资源是由图书馆员挑选的,它的目标是将传统的图书馆编目技术与先进的计算机技术相结合形成一个新系统,能够明显优于现有的搜索引擎。
3.编目工具
图书馆员一向以善于组织信息著称,我们曾经有效地完成了印刷型资料的编目组织工作,当然有能力完成网络信息资源编目的使命。
目前图书馆界对网络信息资源编目的工具以MARC和DC为主,对网络信息资源进行著录的格式应是基于XML的DC描述。
3.1MARC
MARC格式是美国国会图书馆从1963年开始研究应用计算机对图书进行编目的工具,1971年,美国国家标准局将USMARC确定为美国国家标准,1977年,国际图联(IFLA)发布UNIMARC格式,中国根据UNIMARC的框架体系和内容,结合中国的特点编制了CNMARC。
MARC是用于描述、存储、交换、控制和检索的一套机读书目数据标准,它开始主要是针对印刷型书本的描述,对网络信息资源进行编目,是通过在MARC中增加856字段,即“电子资源地址与存取”,并采用5XX字段记录资源格式的方法来进行的。它的数据结构严密,能很好地描述电子信息,尤其是在检索点的选取原则上,能确保其数据元索组成具有统一性,有利于资源交换。此外,这种经过编目人员过滤、筛选过的信息,确保了数据描述的可靠性、完全性和精确性。
856字段主要记录被著录的数字对象或与之相关的其它电子资源的存储地址和存取方式,是可重复、必备字段,包含27个子字段。专业水准的分类和准确的记录这两大特色将使其能在Internet中占有一席之地。但用MARC格式编目Internet的成本相当高,由于网络信息地址时常更改,为了维护856字段链接的有效性,需要耗费相当多的财力、人力和时间,编目的速度远远跟不上网络信息资源增长的速度,因此这种高成本的编目方式只适用于编目一些最重要的网络资源。
3.2DC
目前对因特网上
的信息资源编目用得最多的著录工具是DC(Dublin Core)——都柏林核心,它是一项描述信息资源的国际标准,1995年3月在俄亥俄州的都柏林核心研讨会上,52位来自图书馆、计算机和网络方面的学者和专家共同探讨了基于网络信息资源的描述问题,创建了都柏林核心集。
DC包含15个元素,依据其所描述内容的类别和范围可分为三组:a、对资源内容的描述;b.对知识产权的描述;c、对外部属性的描述。对资源内容描述类包括:Title、Subject、Description、Source、Language、Relation、Coverage。对知识产权的描述包括:Creator、Publisher、Contributor、Rights。对外部属性的描述包括:Date、Type、Format、Identifier。
DC同MARC相比具有以下优点:
· 格式简单且易于使用:因它只有15个元素,易于理解,适合各种背景的人群使用。
· 具有通用性:15个元素可自由选用及重复使用,元素的含义不因其是否嵌入所描述的资源而受到影响。它支持任何内容的资源描述,使得跨学科的语义描述有了可操作性。
· 具有兼容性:DC通过RDF框架形成了资源描述的基础,对基于WEB的元数据提供了灵活的语法基础,如可内嵌入HTML、XML语言,各种浏览器均支持它。
· 具有可扩展性:可根据实际情况,通过使用限定词能够实现扩展描述的方法。
第七次都柏林核心研讨会后,对DC进行了重大改进,DC与MARC之间映射更加一致,接近一一对应于MARC的许多字段,有利于将DC元数据记录集成到图书馆原有的基于MARC的OPAC系统。
3.2XML
图书馆在对网络信息资源编目过程中,采用DC作为网络信息资源的著录工具、XML文档结构作为著录格式是使网络信息资源有序化的理想模式。
XML是一种区别于HTML和SGML的可扩展标识语言,它不象SGML那样复杂,又能象HTML那样可在WEB上传送,它已广泛应用于互联网上 《图书馆与网络信息资源编目》