数字图书馆信息资源本体论的构建
【内容提要】在借鉴国外信息处理领域本体论的理论研究和实践应用最新成果的基础上,根据数字图书馆信息资源管理的不同层次,从宏观上建立数字图书馆信息资源本体论的3个层次结构,并从微观上为每一层次提出可操作的方法体系。
【摘 要 题】信息资源建设
.
【关 键 词】本体论/数字图书馆/层次结构/信息资源
随着信息技术的发展和数字化时代的到来,数字图书馆应运而生。数字图书馆的核心是数字化信息资源的组织与管理,而目前已有的信息处理方法在对信息客体进行深层描述时存在一定的缺陷。本体论(ontology)从信息客体或信息对象出发,通过建立信息客体之间的概念联系和等级关系,将对信息客体的揭示深入到知识内涵的层次并实现对信息客体内在联系的推理。由于本体论为信息资源组织引入了新的方法和思想,它无疑会对数字图书馆建设产生积极的作用。
1 本体论的概念
本体论原本是哲学中的一个概念,是指从人类行为中抽象出来的现实本质。但信息处理领域中的本体论与哲学领域中的内涵不同,国外一些学者已从多种角度对其进行了描述,如:“本体论是一种概念化的关系明确的模式”;“本体论是解释概念潜在的含义的逻辑关系”;“本体论是可以在人和机器间进行交流的某一领域共同的概念表达”;“本体论是可以共享和再利用的概念化模式”。而Borst则将本体论定义为“共用概念的正规明确的具体的概念化模式”,其“概念化”指的是通过标识某一现象的相关概念而建立的这一现象的抽象模型,“明确”指的是所用的概念的类型和用法的限制有明确的定义,“正规”指的是本体论的实例可以实现机读,“共用”指的是本体论所捕捉的知识带有一般性,而不是某些个体所独有的。
从本体论这些定义可以看出,本体论这一信息处理模式在保持原有核心特征的基础上,本身在逐步发展和完善。简而言之,本体论是一个概念的集合,这些概念包括等级结构、概念间的关系、每个概念所具有的属性及进一步限制的定理。当使用本体论表示数字文献资源时,是在描述一个事物的两个方面:一是资源外在形式——题名、作者、出版者、文件格式、知识产权等,另一方面是资源内容——文献的主题。两个方面都可以使用本体论来建立等级关系的知识模型,在等级结构的知识模型中可以定义信息客体、信息客体的内容和相关的属性与关系。
2 文本文献本体论的构建
为数字图书馆信息资源构建本体论不是单一的一个层次,而是在传统图书馆的基础上,针对数字图书馆信息资源管理的不同发展阶段,形成一个多层次的体系,其中的第一层就是为文本文献构建本体论。
2.1 可行性分析
文本文献资源是传统图书馆馆藏的主体,随着图书馆数字化进程的深入,对揭示大量文本文献内在关系的需求更为紧迫,因而为文本文献构建本体论成为数字图书馆信息资源本体论构建的第一步。
构建本体论的核心是建立概念的等级结构及定义概念属性,从而利用逻辑推理来推导概念之间的关系。对于文本文献来说,构建本体论的实质就是建立文献之间的等级结构,并定义文献之间的关系。与其它类型的信息资源相比,文本文献本身就有较为规范和概念明确的特点,所以为文本文献信息建立等级结构和定义属性较为便利。因为文本文献的等级关系在MARC上有较好的体现,所以在MARC数据的基础上构建本体论具有较强的可行性和实用性,由此文本文献本体论的构建包括一个MARC记录的转化过程。构建本体论的最终目的是实现推理,利用文献的等级结构和定义的属性可以在转化后的MARC上实现推导文献间关系的目标。构建文本文献本体论的最后一步是将推理的结果生成知识库。
2.2 文献等级结构的建立
构建文本文献信息本体论的基础是文献等级结构的建立。文献的创造过程始于一种思想,即“构思”。这种“构思”一经抽象,则被称之为“表述”。当“表述”出版后,它就成为“版本”。“版本”的物理形式为“载体”;如果是数字化的,这种“载体”则称为“数字化形式”。“载体”的某一版本称为“实例”。
文献等级各层次之间的关系比其看上去要复杂,低层次对高层次而言是一种继承关系。“实例”是“载体”、“版本”等中的一种,因此,“实例”有一个统一题名,这一统一题名可以直接检索到而无需利用文献等级结构导航。在著录逻辑中,文献等级中的每一个概念被定义为“属于”关系,或是一种对上层概念的“延伸”关系。继承的值与“延伸”关系相关上位类的值“相同”。
2.3 MARC记录转入本体论
将MARC字段和值转化为标识的文本要借助4个控制文档,这组文档著录了MARC格式和它与本体论的关系。主控文档将选定MARC字段和编码扫描为一个或多个本体论概念。一些扫描过程视MARC值而定,依据不同情况将单一字段扫描为多个本体论概念。第二个控制文档对多个MARC字段扫描为同一个本体论概念的情况建立优先权。第三个控制文档依据MARC记录的类型和书目层次标识MARC字段内编码的位置。第四个控制文档包括每一个编码的信息,包括编码—值表的长度和位置。
2.4 知识库的生成
将MARC数据转为用本体论概念标识的文本后,依据本体论所规定的文献等级结构及定义的相关属性可以进行如下推理:
·用统一的标准对中间概念的多项进行合并。统一标准算法使用基数限定,这一基数限定是本体论定义的一部分。如果某项的类型属于另一项,且允许多重值,那么该项被合并。
·标识合并相同的构思。有相同统一题名、作者、序列号的构思被视为相同的构思。当缺少统一题名时,使用版本项的题名代替。
·如果文风和相关作者值相匹配,或者版本层的某种衍生关系可以识别的情况下,标识和合并有相同构思的表述。
·在出版者和出版日期相匹配,并且一项的出版形式值是另一项出版形式值的子集时,标识和合并有相同表述的版本项。同时还可在载体层某种衍生关系可以确定的情况下合并版本项。
·依据MARC记录描述的衍生关系建立与先前文献的关系。如果在文献族中未发现原作,则生成原作相关知识的本体论(包括在文献等级结构中衍生文献所在等级以上的全部层次和来自MARC记录的信息)。
最后将推理的结构进行归纳,将具有相同关系的文献合并,从而生成知识库。
3 XML中本体论的构建
数字图书馆管理的不仅是文本文献,还有多媒体信息,因此,为此类信息资源构建本体论就成为数字图书馆信息资源本体论构建的第二个层次。
3.1 可行性分析
由于MARC等处理手段著录多媒体信息的缺陷,数字图书馆必须采用能标识各类型信息资源的标准和技术。XML具有灵活性和可扩展性优势,突破了MARC的局限,可以描述各种类型的文献资源。使用者可利用XML中的DTD自行定义所需的标记语言及XML文件的结构。如果使用者就DTD达成一致,则文献可以用一致的方式创造、传
3.2 等级关系的建立
实现基于本体论的XML描述首先要定义描述客体之间的等级关系,这就需要建立等级关系模型。以一个由人和出版物概念等级结构组成的本体论关系模型为例,本体论在框架逻辑中描述概念,规定“人”是“客体”的一个子概念;“职员”和“学生”是“人”的子概念等等。概念“博士生”同时继承了“学生”和“研究者”的属性,相继承的属性被定义在本体论的第二部分,指的是概念之间的关系,在此通过相应类型的属性建立起概念之间的关系。本体论的第三部分是定理,使用这一定理可以在已有事实的基础上推断新知识。例如,假设研究者A和B合作,则可推断出B也是研究者,同时B也与A合作。因此,本体论可以推断不完整的知识。
3.3 本体论DTD的生成
因为继承关系是本体论的核心,而XML本身并不支持这种关系,所以这一关系模式需要借助其它方法才能在DTD中生成。使用XML的参数实体可以实现这一目标,参数实体定义了可以用于DTD的替换字符串,每当参数实体被参照时,这一参照则使用替换字符串来代替。DTDMAKER是一个在XML文献的DTD中构建本体论的有效工具,它将本体论的概念扫入DTD的元素类型中,即对每一个概念元素类型都做定义,这些元素类型的内容模型由表达概念属性的元素构成。本体论中的属性和XML的属性一样可以表述出来,也就是说本体论的属性可以被扫入相应的XML属性中。最后一步是将本体论属性元素内容模型的规范扫入DTD中。
4 知识管理中本体论的构建
数字图书馆的目标是在对各种文献信息进行组织和管理的基础上,最终实现对知识的管理。在知识管理的全过程中构建本体论,可以实现对知识本身的揭示,实现数字图书馆对信息资源最高层次的管理。
4.1 可行性分析
在知识管理的过程中构建本体论主要由4项工作构成:①建立等级结构;②知识描述;③本体论信息浏览;④在推理基础上提供知识的智能检索。这些内容容易与关系型数据库技术相混淆:本体论模型对应于数据模型,对知识的描述对应于知识库中的数据项,查找则对应于SQL。然而,这种本体 《数字图书馆信息资源本体论的构建》
本文链接地址:http://www.oyaya.net/fanwen/view/60321.html
【摘 要 题】信息资源建设
.
【关 键 词】本体论/数字图书馆/层次结构/信息资源
随着信息技术的发展和数字化时代的到来,数字图书馆应运而生。数字图书馆的核心是数字化信息资源的组织与管理,而目前已有的信息处理方法在对信息客体进行深层描述时存在一定的缺陷。本体论(ontology)从信息客体或信息对象出发,通过建立信息客体之间的概念联系和等级关系,将对信息客体的揭示深入到知识内涵的层次并实现对信息客体内在联系的推理。由于本体论为信息资源组织引入了新的方法和思想,它无疑会对数字图书馆建设产生积极的作用。
1 本体论的概念
本体论原本是哲学中的一个概念,是指从人类行为中抽象出来的现实本质。但信息处理领域中的本体论与哲学领域中的内涵不同,国外一些学者已从多种角度对其进行了描述,如:“本体论是一种概念化的关系明确的模式”;“本体论是解释概念潜在的含义的逻辑关系”;“本体论是可以在人和机器间进行交流的某一领域共同的概念表达”;“本体论是可以共享和再利用的概念化模式”。而Borst则将本体论定义为“共用概念的正规明确的具体的概念化模式”,其“概念化”指的是通过标识某一现象的相关概念而建立的这一现象的抽象模型,“明确”指的是所用的概念的类型和用法的限制有明确的定义,“正规”指的是本体论的实例可以实现机读,“共用”指的是本体论所捕捉的知识带有一般性,而不是某些个体所独有的。
从本体论这些定义可以看出,本体论这一信息处理模式在保持原有核心特征的基础上,本身在逐步发展和完善。简而言之,本体论是一个概念的集合,这些概念包括等级结构、概念间的关系、每个概念所具有的属性及进一步限制的定理。当使用本体论表示数字文献资源时,是在描述一个事物的两个方面:一是资源外在形式——题名、作者、出版者、文件格式、知识产权等,另一方面是资源内容——文献的主题。两个方面都可以使用本体论来建立等级关系的知识模型,在等级结构的知识模型中可以定义信息客体、信息客体的内容和相关的属性与关系。
2 文本文献本体论的构建
为数字图书馆信息资源构建本体论不是单一的一个层次,而是在传统图书馆的基础上,针对数字图书馆信息资源管理的不同发展阶段,形成一个多层次的体系,其中的第一层就是为文本文献构建本体论。
2.1 可行性分析
文本文献资源是传统图书馆馆藏的主体,随着图书馆数字化进程的深入,对揭示大量文本文献内在关系的需求更为紧迫,因而为文本文献构建本体论成为数字图书馆信息资源本体论构建的第一步。
构建本体论的核心是建立概念的等级结构及定义概念属性,从而利用逻辑推理来推导概念之间的关系。对于文本文献来说,构建本体论的实质就是建立文献之间的等级结构,并定义文献之间的关系。与其它类型的信息资源相比,文本文献本身就有较为规范和概念明确的特点,所以为文本文献信息建立等级结构和定义属性较为便利。因为文本文献的等级关系在MARC上有较好的体现,所以在MARC数据的基础上构建本体论具有较强的可行性和实用性,由此文本文献本体论的构建包括一个MARC记录的转化过程。构建本体论的最终目的是实现推理,利用文献的等级结构和定义的属性可以在转化后的MARC上实现推导文献间关系的目标。构建文本文献本体论的最后一步是将推理的结果生成知识库。
2.2 文献等级结构的建立
构建文本文献信息本体论的基础是文献等级结构的建立。文献的创造过程始于一种思想,即“构思”。这种“构思”一经抽象,则被称之为“表述”。当“表述”出版后,它就成为“版本”。“版本”的物理形式为“载体”;如果是数字化的,这种“载体”则称为“数字化形式”。“载体”的某一版本称为“实例”。
文献等级各层次之间的关系比其看上去要复杂,低层次对高层次而言是一种继承关系。“实例”是“载体”、“版本”等中的一种,因此,“实例”有一个统一题名,这一统一题名可以直接检索到而无需利用文献等级结构导航。在著录逻辑中,文献等级中的每一个概念被定义为“属于”关系,或是一种对上层概念的“延伸”关系。继承的值与“延伸”关系相关上位类的值“相同”。
2.3 MARC记录转入本体论
将MARC字段和值转化为标识的文本要借助4个控制文档,这组文档著录了MARC格式和它与本体论的关系。主控文档将选定MARC字段和编码扫描为一个或多个本体论概念。一些扫描过程视MARC值而定,依据不同情况将单一字段扫描为多个本体论概念。第二个控制文档对多个MARC字段扫描为同一个本体论概念的情况建立优先权。第三个控制文档依据MARC记录的类型和书目层次标识MARC字段内编码的位置。第四个控制文档包括每一个编码的信息,包括编码—值表的长度和位置。
2.4 知识库的生成
将MARC数据转为用本体论概念标识的文本后,依据本体论所规定的文献等级结构及定义的相关属性可以进行如下推理:
·用统一的标准对中间概念的多项进行合并。统一标准算法使用基数限定,这一基数限定是本体论定义的一部分。如果某项的类型属于另一项,且允许多重值,那么该项被合并。
·标识合并相同的构思。有相同统一题名、作者、序列号的构思被视为相同的构思。当缺少统一题名时,使用版本项的题名代替。
·如果文风和相关作者值相匹配,或者版本层的某种衍生关系可以识别的情况下,标识和合并有相同构思的表述。
·在出版者和出版日期相匹配,并且一项的出版形式值是另一项出版形式值的子集时,标识和合并有相同表述的版本项。同时还可在载体层某种衍生关系可以确定的情况下合并版本项。
·依据MARC记录描述的衍生关系建立与先前文献的关系。如果在文献族中未发现原作,则生成原作相关知识的本体论(包括在文献等级结构中衍生文献所在等级以上的全部层次和来自MARC记录的信息)。
最后将推理的结构进行归纳,将具有相同关系的文献合并,从而生成知识库。
3 XML中本体论的构建
数字图书馆管理的不仅是文本文献,还有多媒体信息,因此,为此类信息资源构建本体论就成为数字图书馆信息资源本体论构建的第二个层次。
3.1 可行性分析
由于MARC等处理手段著录多媒体信息的缺陷,数字图书馆必须采用能标识各类型信息资源的标准和技术。XML具有灵活性和可扩展性优势,突破了MARC的局限,可以描述各种类型的文献资源。使用者可利用XML中的DTD自行定义所需的标记语言及XML文件的结构。如果使用者就DTD达成一致,则文献可以用一致的方式创造、传
递和翻译,同时保留传递者指明的语义。在XML的DTD中构建本体论可以实现在概念层整合各种类型信息资源,它将来自句法和表述层的信息提高到更为抽象的概念和关系层进行描述,满足了揭示多媒体信息内在关系的需求。
3.2 等级关系的建立
实现基于本体论的XML描述首先要定义描述客体之间的等级关系,这就需要建立等级关系模型。以一个由人和出版物概念等级结构组成的本体论关系模型为例,本体论在框架逻辑中描述概念,规定“人”是“客体”的一个子概念;“职员”和“学生”是“人”的子概念等等。概念“博士生”同时继承了“学生”和“研究者”的属性,相继承的属性被定义在本体论的第二部分,指的是概念之间的关系,在此通过相应类型的属性建立起概念之间的关系。本体论的第三部分是定理,使用这一定理可以在已有事实的基础上推断新知识。例如,假设研究者A和B合作,则可推断出B也是研究者,同时B也与A合作。因此,本体论可以推断不完整的知识。
3.3 本体论DTD的生成
因为继承关系是本体论的核心,而XML本身并不支持这种关系,所以这一关系模式需要借助其它方法才能在DTD中生成。使用XML的参数实体可以实现这一目标,参数实体定义了可以用于DTD的替换字符串,每当参数实体被参照时,这一参照则使用替换字符串来代替。DTDMAKER是一个在XML文献的DTD中构建本体论的有效工具,它将本体论的概念扫入DTD的元素类型中,即对每一个概念元素类型都做定义,这些元素类型的内容模型由表达概念属性的元素构成。本体论中的属性和XML的属性一样可以表述出来,也就是说本体论的属性可以被扫入相应的XML属性中。最后一步是将本体论属性元素内容模型的规范扫入DTD中。
4 知识管理中本体论的构建
数字图书馆的目标是在对各种文献信息进行组织和管理的基础上,最终实现对知识的管理。在知识管理的全过程中构建本体论,可以实现对知识本身的揭示,实现数字图书馆对信息资源最高层次的管理。
4.1 可行性分析
在知识管理的过程中构建本体论主要由4项工作构成:①建立等级结构;②知识描述;③本体论信息浏览;④在推理基础上提供知识的智能检索。这些内容容易与关系型数据库技术相混淆:本体论模型对应于数据模型,对知识的描述对应于知识库中的数据项,查找则对应于SQL。然而,这种本体 《数字图书馆信息资源本体论的构建》