分布式网络信息资源重构模式及系统实现
电子图书馆建设项目的课题“网络资源管理系统的开发和应用”过程中的思路和经验,对网络资源管理系统的结构和功能加以概括。如图1所示:
附图
图1 网络资源导航系统总体结构
网络资源管理系统包括5个方面的内容:
(一)网络资源的描述。网络资源的描述是通过对相关元数据的制订来实施的,经过调研,确定以专门用来组织网络资源并且易于操作的都柏林元数据核心元素集(Dublin Metadata Core Element Set,简称DC)为基本集合,结合用户的检索要求、网络资源的特点以及系统的信息挖掘、资源监测和评估等高级功能,增加了相应的属性,制定出一套用以帮助识别、描述、定位、组织和管理网络资源的元数据集合:网络资源管理元数据(Network Resource Management Metadata,简称NRMM)。
(二)网络资源收集、整理、组织和发布工具。工具平台包括各级用户注册模块、内容管理员资源添加、管理和维护模块、内容管理员站务管理模块和普通用户推荐资源模块。在网络信息导航系统平台上,系统的功能分为两种:
第一种是需要人工参与的,包括面向系统管理员、内容管理员和普通用户等三种参与者的相应功能。其中,系统管理员具有最高权限,包括管理内容管理员和用户的属性信息、设置学科等;内容管理员负责分布式地收集、标引、组织和发布网络信息资源,以及审查由用户推荐的资源;普通用户可以浏览系统内现有资源和推荐新资源供内容管理员审查,同时还可进行信息反馈和交互。
另一种系统功能是由系统自动执行的,具体包括网络信息源的自动监测和质量评估、网络信息挖掘和提供。
(三)网络信息源的自动监测和质量评估。网络信息导航库的资源质量控制是通过人工审核和自动监测相结合来实现的,网络资源管理系统主要提供自动监测和基于自动获取指标数据的质量评估机制。[6][7]由于网上资源的变动性很大,因此,为了保证系统中资源的可用性和新颖性,这种定期监测评估是必需的。
针对学术性资源,主要着眼于网站的内容和它的结构与系统机能进行评估。由于本系统所收集的网站信息资源已经十分庞杂,采取人工方式进行评估耗时耗力,因此,采取软件实时测试的自动评估方式。目前,将测试指标定为网站的链接状态和特征页面信息提取等几项,同时会记录每一个被监测对象的监测时间和监测周期,通过系统定时执行监测程序并保存监测结果。监测结果最终会向系统的内容管理员发出监测报告的通知,从而起到保持和维护信息资源系统的监督作用。
(四)网络信息挖掘和提供。采用内容管理员模式来收集专业网络资源,提高了资源的精度和深度,但是,网络资源浩如烟海,光靠内容管理员人工查找是无法达到广度要求的。因此,采用自动抓取和人工过滤相结合的方式,即用非结构化的数据挖掘技术获取更有价值的信息。
数据挖掘一般包含如下几个步骤:(1)理解相应的问题领域;(2)准备相关数据子集;(3)发现模式(数据挖掘);(4)所发现模式的后处理;(5)应用发现结果。本系统中数据挖掘部分的工作流程主要分以下几步:建立关键词表、源文档采集、信息过滤、用户浏览信息。[8]
数据挖掘部分是一个人机结合的部分,它通过分工使人和计算机的特长都得到了充分的发挥。数据挖掘功能大大减轻了内容管理员的工作负担,增加了系统中网络资源的深度和广度,并且有一定智能性,可以对搜索到的数据进行剔重、加权等处理。
(五)读者信息反馈和交互。网络信息资源导航的最终目的是帮助网络信息用户更充分,更有效地利用各种网络信息资源,服务于用户的学术研究、教学和学习。用户与系统之间、用户与用户之间的信息交互会在达成上述目的的过程中起到重要的作用。网络资源管理系统主要提供以下5种信息交互模式:用户网上调查、用户留言、电子公告版、网上传呼和在线讨论区。除了上述用户主动信息提供方式外,系统还会在用户使用系统各种功能和资源的过程中自动收集、整理和分析用户的操作信息,如点击页面、链接选择、输入检索词等,从中了解用户的需求和学科兴趣,为向用户提供个性化服务收集相关信息。
用户信息反馈和交互是网络资源管理系统的重要功能,它的实现被分散在系统的各种模块中,使系统更加友好和智能化。
四、系统应用:清华大学学科信息服务网站群建设的起步
目前,基于分布式网络信息资源重构模式的网络资源管理系统在清华大学图书馆学科信息服务网站群建设中已经得到了有效的应用。
(一)虚拟图书馆建设。清华大学图书馆从1995年就开始通过按专题收集网络资源来构建虚拟图书馆的工作。当时虽然由于人员限制,只完成了“燃烧学”等个别专题,但却成为后来研究和开发网络资源管理系统的诱因。
可以把虚拟图书馆界定为这样的概念:它是由专业人员搜集
(二)学科馆员和学科导航。清华大学图书馆的学科馆员是具有相应学术背景、承担相关学科的信息服务工作并且负责联系相关学科读者的图书馆专业工作人员。他们的重要工作之一就是建设、维护和管理本学科的信息服务网站,利用网络资源管理系统,分布式的共同构建一个重点学科网络资源的分类导航库。这也是清华大学图书馆虚拟图书馆的重要组成部分。
重点学科导航库是“211工程”立项高校图书馆的共建项目,目的是通过搜集Internet网上的信息资源,为重点学科的师生提供快捷方便的网络学术资源查询服务。其中包括清华大学图书馆在该项目中承建的11个重点学科导航库:材料科学与工程;固体力学;核能与核技术;环境工程;结构工程;经济管理;能源工程;人居环境学;生物物理;先进制造;信息科学与技术。
此外还有清华大学一些重点学科的导航资源:电力与电子;化学与化工;机械;计算机与自控;经济;生物;土木工程。
(三)助教、博士生和学术资源网。由助教、博士生作为内容管理员维护和管理的清华大学学术资源网是网络资源管理系统的主要应用对象,除了作为虚拟图书馆的一个组成部分提供的学科导航功能外,它还具有以下功能:
·信息资源实体的收集、存贮和管理:这些信息实体包括论文全文、图像、音频和视频文件等。
·与信息用户的交互:用户也成为推荐和收集网络资源的重要力量。
·收集和更新学科关键词和主题词:作为计算机理解自然语言信息内容的基础。
与学科馆员相比,作为助教、博士生的内容管理员具有以下特点:
·背景学科领域既窄且深,更能把握学科最新动态。
·收集信息资源的类型较广,包括信息实体。
·信息资源的基于学科内容的评价更具权威性。
·处于科研前线,与本学科同行联系较多,交互效果较好。
目前正在建设和维护中的学科信息服务网站有以下几个:光电工程;金属薄膜与显微结构分析;热能动力工程及控制;生物医学工程人体运动检测;数字图书馆研究;宽带无线多媒体通信技术。
五、结论
分布式网络信息资源重组是在网络世界中提供充分、实时、高效和友好的信息服务的重要途径和前提,也是图书馆有效实现网络资源的收集、组织、整理和发布的基础。这里的“分布”包含三个层次的涵义:资源的分布、用户的分布和管理的分布。本文重点探讨了最后一个层次。
计算机和人在一个分布式信息管理系统中具有同样重要的地位,协调、融合和组织计算机和人在信息管理中的作用正是该系统的主要功能。人工智能是计算机在系统中发挥作用的基础,人机交互的作用机制则是对人工智能充分发挥作用的保障。
以分布式网络信息资源重组机制为依据的网络资源管理系统为系统管理员、内容管理员和用户提供了一个高度智能的动态的交互环境和基于学科分类的网络信息资源组织框架,前者是服务的方式,而后者则是服务的基础。
【参考文献】
[1]C.W.Holsapple,K.D.Joshi.Organizational Knowledge Resources[J].Decision Support Systems, 2001,31(1):39-54.
[2]I.Becerra-Fernandez.The Role of Artificial Intelligence Technologies in the Implementation of People-Finder Knowledge Management Systems[J]. Knowledg 《分布式网络信息资源重构模式及系统实现(第2页)》
本文链接地址:http://www.oyaya.net/fanwen/view/60044.html
附图
图1 网络资源导航系统总体结构
网络资源管理系统包括5个方面的内容:
(一)网络资源的描述。网络资源的描述是通过对相关元数据的制订来实施的,经过调研,确定以专门用来组织网络资源并且易于操作的都柏林元数据核心元素集(Dublin Metadata Core Element Set,简称DC)为基本集合,结合用户的检索要求、网络资源的特点以及系统的信息挖掘、资源监测和评估等高级功能,增加了相应的属性,制定出一套用以帮助识别、描述、定位、组织和管理网络资源的元数据集合:网络资源管理元数据(Network Resource Management Metadata,简称NRMM)。
(二)网络资源收集、整理、组织和发布工具。工具平台包括各级用户注册模块、内容管理员资源添加、管理和维护模块、内容管理员站务管理模块和普通用户推荐资源模块。在网络信息导航系统平台上,系统的功能分为两种:
第一种是需要人工参与的,包括面向系统管理员、内容管理员和普通用户等三种参与者的相应功能。其中,系统管理员具有最高权限,包括管理内容管理员和用户的属性信息、设置学科等;内容管理员负责分布式地收集、标引、组织和发布网络信息资源,以及审查由用户推荐的资源;普通用户可以浏览系统内现有资源和推荐新资源供内容管理员审查,同时还可进行信息反馈和交互。
另一种系统功能是由系统自动执行的,具体包括网络信息源的自动监测和质量评估、网络信息挖掘和提供。
(三)网络信息源的自动监测和质量评估。网络信息导航库的资源质量控制是通过人工审核和自动监测相结合来实现的,网络资源管理系统主要提供自动监测和基于自动获取指标数据的质量评估机制。[6][7]由于网上资源的变动性很大,因此,为了保证系统中资源的可用性和新颖性,这种定期监测评估是必需的。
针对学术性资源,主要着眼于网站的内容和它的结构与系统机能进行评估。由于本系统所收集的网站信息资源已经十分庞杂,采取人工方式进行评估耗时耗力,因此,采取软件实时测试的自动评估方式。目前,将测试指标定为网站的链接状态和特征页面信息提取等几项,同时会记录每一个被监测对象的监测时间和监测周期,通过系统定时执行监测程序并保存监测结果。监测结果最终会向系统的内容管理员发出监测报告的通知,从而起到保持和维护信息资源系统的监督作用。
(四)网络信息挖掘和提供。采用内容管理员模式来收集专业网络资源,提高了资源的精度和深度,但是,网络资源浩如烟海,光靠内容管理员人工查找是无法达到广度要求的。因此,采用自动抓取和人工过滤相结合的方式,即用非结构化的数据挖掘技术获取更有价值的信息。
数据挖掘一般包含如下几个步骤:(1)理解相应的问题领域;(2)准备相关数据子集;(3)发现模式(数据挖掘);(4)所发现模式的后处理;(5)应用发现结果。本系统中数据挖掘部分的工作流程主要分以下几步:建立关键词表、源文档采集、信息过滤、用户浏览信息。[8]
数据挖掘部分是一个人机结合的部分,它通过分工使人和计算机的特长都得到了充分的发挥。数据挖掘功能大大减轻了内容管理员的工作负担,增加了系统中网络资源的深度和广度,并且有一定智能性,可以对搜索到的数据进行剔重、加权等处理。
(五)读者信息反馈和交互。网络信息资源导航的最终目的是帮助网络信息用户更充分,更有效地利用各种网络信息资源,服务于用户的学术研究、教学和学习。用户与系统之间、用户与用户之间的信息交互会在达成上述目的的过程中起到重要的作用。网络资源管理系统主要提供以下5种信息交互模式:用户网上调查、用户留言、电子公告版、网上传呼和在线讨论区。除了上述用户主动信息提供方式外,系统还会在用户使用系统各种功能和资源的过程中自动收集、整理和分析用户的操作信息,如点击页面、链接选择、输入检索词等,从中了解用户的需求和学科兴趣,为向用户提供个性化服务收集相关信息。
用户信息反馈和交互是网络资源管理系统的重要功能,它的实现被分散在系统的各种模块中,使系统更加友好和智能化。
四、系统应用:清华大学学科信息服务网站群建设的起步
目前,基于分布式网络信息资源重构模式的网络资源管理系统在清华大学图书馆学科信息服务网站群建设中已经得到了有效的应用。
(一)虚拟图书馆建设。清华大学图书馆从1995年就开始通过按专题收集网络资源来构建虚拟图书馆的工作。当时虽然由于人员限制,只完成了“燃烧学”等个别专题,但却成为后来研究和开发网络资源管理系统的诱因。
可以把虚拟图书馆界定为这样的概念:它是由专业人员搜集
并评估的按学科领域和学科分支进行索引的Internet信息资源目录。目前清华大学的虚拟图书馆建设与学科信息服务网站群建设融合在一起,主要由学科馆员、助教和博士生完成。虚拟图书馆的设计注重体现:选择具有特色和典型意义的信息源;重深度而不刻意追求广度;对信息源进行具有权威性的评介。
(二)学科馆员和学科导航。清华大学图书馆的学科馆员是具有相应学术背景、承担相关学科的信息服务工作并且负责联系相关学科读者的图书馆专业工作人员。他们的重要工作之一就是建设、维护和管理本学科的信息服务网站,利用网络资源管理系统,分布式的共同构建一个重点学科网络资源的分类导航库。这也是清华大学图书馆虚拟图书馆的重要组成部分。
重点学科导航库是“211工程”立项高校图书馆的共建项目,目的是通过搜集Internet网上的信息资源,为重点学科的师生提供快捷方便的网络学术资源查询服务。其中包括清华大学图书馆在该项目中承建的11个重点学科导航库:材料科学与工程;固体力学;核能与核技术;环境工程;结构工程;经济管理;能源工程;人居环境学;生物物理;先进制造;信息科学与技术。
此外还有清华大学一些重点学科的导航资源:电力与电子;化学与化工;机械;计算机与自控;经济;生物;土木工程。
(三)助教、博士生和学术资源网。由助教、博士生作为内容管理员维护和管理的清华大学学术资源网是网络资源管理系统的主要应用对象,除了作为虚拟图书馆的一个组成部分提供的学科导航功能外,它还具有以下功能:
·信息资源实体的收集、存贮和管理:这些信息实体包括论文全文、图像、音频和视频文件等。
·与信息用户的交互:用户也成为推荐和收集网络资源的重要力量。
·收集和更新学科关键词和主题词:作为计算机理解自然语言信息内容的基础。
与学科馆员相比,作为助教、博士生的内容管理员具有以下特点:
·背景学科领域既窄且深,更能把握学科最新动态。
·收集信息资源的类型较广,包括信息实体。
·信息资源的基于学科内容的评价更具权威性。
·处于科研前线,与本学科同行联系较多,交互效果较好。
目前正在建设和维护中的学科信息服务网站有以下几个:光电工程;金属薄膜与显微结构分析;热能动力工程及控制;生物医学工程人体运动检测;数字图书馆研究;宽带无线多媒体通信技术。
五、结论
分布式网络信息资源重组是在网络世界中提供充分、实时、高效和友好的信息服务的重要途径和前提,也是图书馆有效实现网络资源的收集、组织、整理和发布的基础。这里的“分布”包含三个层次的涵义:资源的分布、用户的分布和管理的分布。本文重点探讨了最后一个层次。
计算机和人在一个分布式信息管理系统中具有同样重要的地位,协调、融合和组织计算机和人在信息管理中的作用正是该系统的主要功能。人工智能是计算机在系统中发挥作用的基础,人机交互的作用机制则是对人工智能充分发挥作用的保障。
以分布式网络信息资源重组机制为依据的网络资源管理系统为系统管理员、内容管理员和用户提供了一个高度智能的动态的交互环境和基于学科分类的网络信息资源组织框架,前者是服务的方式,而后者则是服务的基础。
【参考文献】
[1]C.W.Holsapple,K.D.Joshi.Organizational Knowledge Resources[J].Decision Support Systems, 2001,31(1):39-54.
[2]I.Becerra-Fernandez.The Role of Artificial Intelligence Technologies in the Implementation of People-Finder Knowledge Management Systems[J]. Knowledg 《分布式网络信息资源重构模式及系统实现(第2页)》