解读美国数字档案馆的核心技术
【内容提要】EAD DTD技术无疑是当今美国数字档案馆的核心技术,本文准确、清晰地剖析了美国的编码档案著录文献类型定义(EAD DTD)技术的形成、记录结构、构成元素、相关属性及其著录方法,这对于建立和发展我国自己的EAD DTD具有非常重要的参考价值。
【摘 要 题】海外纵览
【 正 文】
序言:数字档案馆的建设已经成为当今全球档案界最热门的话题之一,我国也不例外。本文就是在此背景下开始尝试探索美国数字档案馆的核心技术——EAD DTD技术。下面笔者将分两部分对EAD产生的历史背景和核心概念(全宗概念)、EAD技术内幕(记录结构、构成元素、相关属性、及其著录方法)进行论述,本文仅作抛砖引玉,如有不妥,还望大家批评指正。
第一部分 EAD DTD产生的历史背景和核心概念
1 EAD DTD产生的历史背景
EAD是基于《通用档案著录国际标准》(ISAD(G))之上的一部档案著录交流标准。它是以标准通用标记语言(SGML)和扩展标记语言(XML)文献类型定义(DTD)的形式存在的。SGML是一个硬件和软件独立的标准,这个用来建立文本资料编码方案的标准是由国际标准组织维护的。SGML首次于1986年推出,在政府、工业、学术界获得巨大的成功。由于SGML很复杂,程序员发现很难用来编制软件。因此,1998年2月由世界广域网联盟(W3C)推出了SGML的可兼容子集,即XML。XML和其他一些相应的标准(如,扩展式样语言(XSL)、扩展链接语言(XLink)提供了SGML和相关标准(如,DSSSL and HyTime)的大部分功能,因此,软件编程人员感到XML容易使用。由于DTD与SGML和XML兼容,所以,EAD DTD就充分地利用了现存的SGML软件和XML软件的优点。1998年8月底,也就在美国档案工作者协会(以下简称为SAA)年会召开之际(8月31日—9月6日在佛罗里达州的奥兰多市召开),SAA下属的档案信息交换委员会(CAIE)下设的编码档案著录(简称EAD)工作组和美国国会图书馆下属的网络发展和马克(MARC)标准办公室联合发布了《编码档案著录文献类型定义1.0版》(英文称作“EAD DTD Version 1.0”,为了不与其他行业制定的DTD相混淆,美国人将此标准简称为“EAD DTD”,但是他们常常为了简便称之为“EAD”。)。与此同时,SAA的季刊《美国档案工作者》出版了刊名上分别标上1997年第3、第4期的两期专刊,专门介绍有关EAD的研制背景和案例应用研究。之后SAA将两本期刊合二为一出版,题名为《编码档案著录:背景、理论和案例研究》。1999年初,SAA下设的EAD工作组出版了一本题名为《编码档案著录应用指南1.0版》。这三本著作是研究EAD技术的重要依据。
EAD DTD在反映ISAD(G)的同时,强调档案著录的等级性质和著录的继承性。EAD DTD中的一套变比较多的著录元素集就是用来著录整个汇集或者全宗的。客观地来说,EAD在利用先进技术转换档案著录方面还处于非常早期的阶段,目前大多数EAD的实施应用注重显示,不注重标引,标引相对简单。然而,由于网络检索和全文标引极大地增强了对著录记录以及对应的资料的检索,因此需要研究传统档案著录在新的联机环境下是否有效、哪些地方需要改、哪些地方需要增加、以什么方式并且怎样完全地开发利用档案著录信息。因此,EAD也正在进一步朝着全面揭示档案著录信息的方向发展。与此同时,目前国际上有组织机构正编制一份基于国际档案理事会的《团体机构、个人和家族档案规范记录国际标准《(ISAAR(CPF))的DTD,这将与EAD兼容,也将便利于建立一个传记和历史数据库,这个数据库对于充当档案著录和资源网关的团体机构、个人、和家族的文献进行处理,这个数据库本身是一个重要的资源,并且将有利于分散的和复杂的全宗的著录。
EAD的国际使用带来了与语言相关的问题,那些母语不是英语的档案人员无法理解和应用这个原来针对英语国家的标准。因此,必须编制其他语种的EAD DTD版本和使用手册。目前HyTime公司已经研制出了EAD DTD的特殊语种版本,它能够作为一个规范形式与英语版本进行交流和交换,这将有利于EAD的进一步国际化,我们国内档案界应该抓住机遇,制定相应的中国EAD DTD标准。自从1996年2月EAD的第一初版发布以来,在许多美国、加拿大、英国(尤其是公共档案局)档案库房,和一些欧洲、拉丁美洲、澳大利亚档案库房都在执行EAD计划。就像任何标准需要发展一样,EAD也正在发展之中并将继续发展。EAD目前正由美国国会图书馆(LC)和SAA联合维护。国会图书馆负责实体上的维护,SAA负责行政上和智能上的维护。在SAA内部,EAD工作组(简称EADWG)直接负责继续的发展。工作组的代表分别来自SAA,LC,研究图书馆组公司(RLG),联机计算机图书馆中心(OCLC)和国际档案理事会(ICA),还有两个国际成员,一个来自加拿大,另一个来自英国。
世界各国的实践经验告诉我们,只有当一个标准实现了它所服务的团体的原则和目标的话,标准才会成功。而当那些负责标准管理维护的组织机构真正代表整个用户团体的话,标准才能反映团体的原则和目标。可以预见的是,随着EAD在国际上的使用,EAD工作组的成员也将扩大,最终将成为一个国际组织。我们国内档案界应该积极与EAD工作组联系,获取信息、增进交流,以便于加快研制我国自己的EAD DTD标准的步伐。
2 对于蕴含在EAD技术中的全宗概念的正确理解
美国EAD DTD标准的核心概念之一就是全宗,因此,正确理解全宗概念对于我们把握编码著录技术来说是至关重要的。《通用档案著录国际标准》公布的一份全宗的整理的各个层次的模型示意图(见下图)是一张等级模型图(这张图只是显示了一种典型的情况,并没有包括所有可能的层次组合,全宗层次以下的各个层次的数量是由实际档案决定的。)。这张图有助于我们清晰地理解全宗这一概念。
附图
事实上,许多了解美国档案档案工作的人都知道,美国人不喜欢使用全宗(fonds)这个词,而更喜欢使用汇集(collection)这个词。对于世界上大多数其他国家来说,汇集是指基于一个或者几个标准之上的资料的“有意图的聚集”,是与资料的“有机产生”相对而言的。
第二部分 EAD技术内幕解读
1 高层次元素
EAD规定任何编码检索工具都由两部分组成,而这两部分所在的层次也称为最基本层次。即,(1)第1个最基本层次,第1部分提供关于检索工具本身的信息(包括它的题名、编撰者、编撰日期等等)。(2)第2个最基本层次,第二部分提供关于档案资料主体的信息(包括一个汇集,一个记录组,一份全宗或者由许多份系列构成的一份档案资料)。EAD将第1部分分成2个高层次元素,分别称作EAD头标元素(用<eadheader>表示)、首要事情元素(用<frontmatter>表示)。第2部分被放在第3个高层次元素中,此元素称为档案著录元素(用<archdesc>表示)。这两部分或者说这3个高层次元素被放在最外层的元素中,此最外层的元素称为编码档案著录元素(用<ead>表示)。也就是说,<ead>包含丁上述3个高层次元素。EAD规定,为了在名称上有别于上述2个最基本层次及其包含的3个高层次元素,<ead>也被称为最外层元素。如下表所示。
附图
目前,EAD共收录了145个元素及其对应的标识符,除了上述的<ead>、<eadheader>、<frontmatter>、<archdesc>4个元素,剩下的141个元素将或多或少地根据元素设置规定和实际需要出现在<eadheader>、<frontmatter>、<archdesc>3个高层次元素中,有些元素会根据档案资料的内容著录需要反复出现多次,或者在整个结构的多个地方出现。例如,在文后将提到的链接元素,由于实际的著录内容需要指向一个或几个电子检索工具,所以,在EAD记录结构的任何需要指出链接的地方将使用链接元素,这样,用户在浏览器屏幕上将会看到一个个超链接,这些超链接指向一个个电子检索工具,这难道不是我们想要得到的最佳效果吗?答案显然是肯定的。当然,所有的144个元素都会被最外层的<ead>元 《解读美国数字档案馆的核心技术》
本文链接地址:http://www.oyaya.net/fanwen/view/63752.html
【摘 要 题】海外纵览
【 正 文】
序言:数字档案馆的建设已经成为当今全球档案界最热门的话题之一,我国也不例外。本文就是在此背景下开始尝试探索美国数字档案馆的核心技术——EAD DTD技术。下面笔者将分两部分对EAD产生的历史背景和核心概念(全宗概念)、EAD技术内幕(记录结构、构成元素、相关属性、及其著录方法)进行论述,本文仅作抛砖引玉,如有不妥,还望大家批评指正。
第一部分 EAD DTD产生的历史背景和核心概念
1 EAD DTD产生的历史背景
EAD是基于《通用档案著录国际标准》(ISAD(G))之上的一部档案著录交流标准。它是以标准通用标记语言(SGML)和扩展标记语言(XML)文献类型定义(DTD)的形式存在的。SGML是一个硬件和软件独立的标准,这个用来建立文本资料编码方案的标准是由国际标准组织维护的。SGML首次于1986年推出,在政府、工业、学术界获得巨大的成功。由于SGML很复杂,程序员发现很难用来编制软件。因此,1998年2月由世界广域网联盟(W3C)推出了SGML的可兼容子集,即XML。XML和其他一些相应的标准(如,扩展式样语言(XSL)、扩展链接语言(XLink)提供了SGML和相关标准(如,DSSSL and HyTime)的大部分功能,因此,软件编程人员感到XML容易使用。由于DTD与SGML和XML兼容,所以,EAD DTD就充分地利用了现存的SGML软件和XML软件的优点。1998年8月底,也就在美国档案工作者协会(以下简称为SAA)年会召开之际(8月31日—9月6日在佛罗里达州的奥兰多市召开),SAA下属的档案信息交换委员会(CAIE)下设的编码档案著录(简称EAD)工作组和美国国会图书馆下属的网络发展和马克(MARC)标准办公室联合发布了《编码档案著录文献类型定义1.0版》(英文称作“EAD DTD Version 1.0”,为了不与其他行业制定的DTD相混淆,美国人将此标准简称为“EAD DTD”,但是他们常常为了简便称之为“EAD”。)。与此同时,SAA的季刊《美国档案工作者》出版了刊名上分别标上1997年第3、第4期的两期专刊,专门介绍有关EAD的研制背景和案例应用研究。之后SAA将两本期刊合二为一出版,题名为《编码档案著录:背景、理论和案例研究》。1999年初,SAA下设的EAD工作组出版了一本题名为《编码档案著录应用指南1.0版》。这三本著作是研究EAD技术的重要依据。
EAD DTD在反映ISAD(G)的同时,强调档案著录的等级性质和著录的继承性。EAD DTD中的一套变比较多的著录元素集就是用来著录整个汇集或者全宗的。客观地来说,EAD在利用先进技术转换档案著录方面还处于非常早期的阶段,目前大多数EAD的实施应用注重显示,不注重标引,标引相对简单。然而,由于网络检索和全文标引极大地增强了对著录记录以及对应的资料的检索,因此需要研究传统档案著录在新的联机环境下是否有效、哪些地方需要改、哪些地方需要增加、以什么方式并且怎样完全地开发利用档案著录信息。因此,EAD也正在进一步朝着全面揭示档案著录信息的方向发展。与此同时,目前国际上有组织机构正编制一份基于国际档案理事会的《团体机构、个人和家族档案规范记录国际标准《(ISAAR(CPF))的DTD,这将与EAD兼容,也将便利于建立一个传记和历史数据库,这个数据库对于充当档案著录和资源网关的团体机构、个人、和家族的文献进行处理,这个数据库本身是一个重要的资源,并且将有利于分散的和复杂的全宗的著录。
EAD的国际使用带来了与语言相关的问题,那些母语不是英语的档案人员无法理解和应用这个原来针对英语国家的标准。因此,必须编制其他语种的EAD DTD版本和使用手册。目前HyTime公司已经研制出了EAD DTD的特殊语种版本,它能够作为一个规范形式与英语版本进行交流和交换,这将有利于EAD的进一步国际化,我们国内档案界应该抓住机遇,制定相应的中国EAD DTD标准。自从1996年2月EAD的第一初版发布以来,在许多美国、加拿大、英国(尤其是公共档案局)档案库房,和一些欧洲、拉丁美洲、澳大利亚档案库房都在执行EAD计划。就像任何标准需要发展一样,EAD也正在发展之中并将继续发展。EAD目前正由美国国会图书馆(LC)和SAA联合维护。国会图书馆负责实体上的维护,SAA负责行政上和智能上的维护。在SAA内部,EAD工作组(简称EADWG)直接负责继续的发展。工作组的代表分别来自SAA,LC,研究图书馆组公司(RLG),联机计算机图书馆中心(OCLC)和国际档案理事会(ICA),还有两个国际成员,一个来自加拿大,另一个来自英国。
世界各国的实践经验告诉我们,只有当一个标准实现了它所服务的团体的原则和目标的话,标准才会成功。而当那些负责标准管理维护的组织机构真正代表整个用户团体的话,标准才能反映团体的原则和目标。可以预见的是,随着EAD在国际上的使用,EAD工作组的成员也将扩大,最终将成为一个国际组织。我们国内档案界应该积极与EAD工作组联系,获取信息、增进交流,以便于加快研制我国自己的EAD DTD标准的步伐。
2 对于蕴含在EAD技术中的全宗概念的正确理解
美国EAD DTD标准的核心概念之一就是全宗,因此,正确理解全宗概念对于我们把握编码著录技术来说是至关重要的。《通用档案著录国际标准》公布的一份全宗的整理的各个层次的模型示意图(见下图)是一张等级模型图(这张图只是显示了一种典型的情况,并没有包括所有可能的层次组合,全宗层次以下的各个层次的数量是由实际档案决定的。)。这张图有助于我们清晰地理解全宗这一概念。
附图
事实上,许多了解美国档案档案工作的人都知道,美国人不喜欢使用全宗(fonds)这个词,而更喜欢使用汇集(collection)这个词。对于世界上大多数其他国家来说,汇集是指基于一个或者几个标准之上的资料的“有意图的聚集”,是与资料的“有机产生”相对而言的。
在美国的用法中,有意图地聚集资料是“人造的汇集”(artificial collection)的意思。在英国,尽管有时候使用单数形式的“档案”(archive)来代表“全宗”(fonds),但是最近还是使用“汇集”这个词。然而,我们知道,档案著录是用来描述既是“有机产生”的全宗又是“人造的汇集”。所以,这两个词必将共存一个相当长的时期。
第二部分 EAD技术内幕解读
1 高层次元素
EAD规定任何编码检索工具都由两部分组成,而这两部分所在的层次也称为最基本层次。即,(1)第1个最基本层次,第1部分提供关于检索工具本身的信息(包括它的题名、编撰者、编撰日期等等)。(2)第2个最基本层次,第二部分提供关于档案资料主体的信息(包括一个汇集,一个记录组,一份全宗或者由许多份系列构成的一份档案资料)。EAD将第1部分分成2个高层次元素,分别称作EAD头标元素(用<eadheader>表示)、首要事情元素(用<frontmatter>表示)。第2部分被放在第3个高层次元素中,此元素称为档案著录元素(用<archdesc>表示)。这两部分或者说这3个高层次元素被放在最外层的元素中,此最外层的元素称为编码档案著录元素(用<ead>表示)。也就是说,<ead>包含丁上述3个高层次元素。EAD规定,为了在名称上有别于上述2个最基本层次及其包含的3个高层次元素,<ead>也被称为最外层元素。如下表所示。
附图
目前,EAD共收录了145个元素及其对应的标识符,除了上述的<ead>、<eadheader>、<frontmatter>、<archdesc>4个元素,剩下的141个元素将或多或少地根据元素设置规定和实际需要出现在<eadheader>、<frontmatter>、<archdesc>3个高层次元素中,有些元素会根据档案资料的内容著录需要反复出现多次,或者在整个结构的多个地方出现。例如,在文后将提到的链接元素,由于实际的著录内容需要指向一个或几个电子检索工具,所以,在EAD记录结构的任何需要指出链接的地方将使用链接元素,这样,用户在浏览器屏幕上将会看到一个个超链接,这些超链接指向一个个电子检索工具,这难道不是我们想要得到的最佳效果吗?答案显然是肯定的。当然,所有的144个元素都会被最外层的<ead>元 《解读美国数字档案馆的核心技术》