关于数字信息资源的另一面
【内容提要】任何事物都有两面性。文章从数字信息资源存在的问题,如使用权与所有权问题;易逝性特征;数字信息的不安全性;数字信息的权威性差;适宜于共时研究,历时研究方面有待技术的进步与支持;应加强信息过滤技术的研究,充分考虑技术上的难度和各方面所需的条件等方面,论述了数字信息及数字图书馆建设中应注意的问题。
【摘 要 题】数字图书馆论坛
目前,在我国图书馆界几乎是言必称数字,会必议数字,刊必载数字,课必讲数字,没有“数字”就不时髦。对此,我们可以完全理解,并予以充分肯定。但是“这种热潮”带有很大的盲目性,是对数字图书馆的认识存在误区所致。笔者认为这可能反映了国内图书馆界对于实现数字图书馆在技术上的难度和各方面所需的条件还认识不足;而如果没有充分的认识和多方面的准备,我们在探索实现数字图书馆的过程中可能会走弯路。
1 应深刻认识、加深理解的几个问题
1.1 使用权与所有权问题
其实对于数字化信息资源,我们仅仅拥有使用权,仅仅在付费的那一段时间内,拥有使用权,而并无所有权。这一点与传统的纸质文献资源相比,有很大的不同。传统纸质印刷品,是一个物理实体,当你付钱购买后,你就拥有了所有权,不存在版权问题,不存在内容失真问题。数字图书馆的信息资源,受知识产权的保护限制,许多著作内容不经原著者同意,不能转换,更不能随意上网传播;一般说来,网址信息的稳定则依赖于谁拥有服务的空间,拥有者意味着网址作者控制空间的使用与内容及服务器的管理政策。而存储空间的数量则与服务器提供者的经济承受能力有关。网络空间是人们花一定费用取得的使用权。拥有网络空间就要对其进行维护,包括上网费,电话线路费,线路资源费用。
因而,数字图书馆的建设是一项高技术、高投入的工作,即使美国政府的项目,也不是由政府出全资开发建设,并且在项目的管理上多采用经营模式,技术的开发上很注重标准化和开放性。以下2002年的两则新闻,很值得引起我们重视:一则是欧洲最大的因特网数据运营商KPNQWest公司21日宣布该公司的数据网络将停止运营。KPNQWest为荷兰电信公司KPN和美国电讯商QWest组建的联合公司,已于5月31日宣布破产。据报道,该公司数据网络覆盖欧洲50个城市,其关闭将极大影响欧洲的数据传送。另一则是2002年5月15日根据国外媒体报道,在关键字(Keyword)领域较为突出的国际知名公司RealNames,于当地时间本周一裁去全部员工,宣布破产。目前RealNames已经关闭了其网站,RealNames成千上万的网络关键字客户陷入了前景不可知的境地。故应积极研究开发利用网络信息资源,对网上特定领域内的信息资源进行系统挖掘并且进行有序加工和整理,为用户提供有效利用。否则,花费了大量的人力物力,最后仅仅剩下几台电脑。
1.2 易逝性特征
为了保证网络系统检索的速度与稳定性,网络系统中的信息需要定期删除,犹如飞机中的黑匣子,它仅保留最后一段时间的详细资料,以前的资料逐次消去。而目前各国在法律上并没有规定网络服务商要承担信息保存的职责,因此网上信息有易逝性的特点,信息资源的积累较为困难。数字资料不像印刷媒体也许还能找到孤本,残本,网上电子文件在没有了之后是不留蛛丝马迹的。现在网络文件的平均寿命为44天,因特网上网页的平均寿命是75天。现在没有办法把网上所有变化全部存储下来。号称是最疯狂的新闻网站hand.com,全天24小时发布新闻,新闻内容平均6分钟更新一次,并且不存挡,因而有人发出感叹,作为人类沟通的第四媒体,互联网的历史将无以寄托[1]。同时,有关如何利用网上数字信息资源方面,当前法律方面并无明确规定。一方面有相当多的数字信息在不断消失,另一方面由于版权等原因,人们无法大胆开发利用,处于一种两难的境界。而且,经转化为数字化的信息知识,有的容易失真,甚至容易消失;数字信息载体与纸质印刷品比较,保存期短,磁带寿命为15~20年,光盘寿命为20~30年,远不及纸质印刷品在这方面稳定可靠。再则,技术更新、实体变质、病毒感染、黑客攻击、断电、误操作、服务器毁坏、系统瘫痪等因素都会影想数字信息的有效存取。“再次是技术和标准变迁时,数字资源需要周期性的归档,以便将数字资源转移,变换到新的硬件和软件平台上。由于存储技术发展迅速而导致的技术废退,那些认真开发和维护的数字藏品可能会有朝一日不能解读。”“……因特网上信息的获取这个途径基本没有利用。笔者的调查咨询还显示,98家图书馆中只有四川工业学院,上海交通大学有专人搜集因特网信息,占调查单位的2%。”[2]
在此情况下,图书馆应充分发挥自己在收藏整理方面的特长,及早动手。根据实际情况,有目的、有计划地搜集保存相关资料。无论是实体保护,还是技术环境的维护,其最终目的都是为了确保数字信息的长期可处理性,可利用性。由于数字图书馆是一个海量多媒体数据库,其信息数据最之大是前所未有。传统的二级存储器(主存储器和磁盘)已难以容纳庞大的数字图书馆数据,数字图书馆中的海量数据需要使用三级存储器存储。目前常用的三级存储器有磁带,磁盘,光盘,机器手光盘库,机器手磁盘库等。[3]在日常工作中,应重视收集因特网上更新频度快的灰色文献资源。比如动态报道,其中包含了很多具有重大情报价值的内容,一但网页更新,再也难觅其踪影,所以要求图书馆人员发挥优势,日积月累,将这类信息收入现实馆藏。[4]从而安全保存数字信息资料。
1.3 数字信息的不安全性
除了数字信息对产生信息的原有系统的依赖性,信息与实体的可分离性,信息的易改性等因素对信息的安全带来一系列的影响之外,网络安全的薄弱性是不可忽视的。计算机网络系统并不安全,有时会出现某些隐患,从而使数字信息化为乌有。互联网不安全性的原因主要有三个:网络系统过于复杂,缺陷太多,易于遭受黑客攻击;网络管理的法制体系不够健全;计算机专家设计的技术防范措施不得力。[5]另外病毒破坏、硬盘故障、电压不稳定、停电、误操作等因素都会造成服务器毁坏,系统瘫痪,信息数据丢失的问题。这些都能造成难以估量的损失。
1.4 数字信息的权威性差
“众所周知,因特网点是一个包含众多信息格式,众多信息内容的信息混合体,是一个极具价值的信息源。与有着信息质量控制机制的传统信息发布和传播模式相比,自由、开放的因特网为用户提供了更为方便、更加快捷和更为广泛的信息获取渠道,但它在为用户提供浩如烟海的信息的同时,也造成了信息过载和信息污染等传统环境下不易出现的新问题。”[6]越来越多的专家开始关注网络信息资源的质量问题,并呼吁对网络信息资源开展同传统信息环境下评价纸质文献一样的严格的质量评价。这不仅是因为网络出版具有自由与自发特性,信息发布缺乏质量控制机制,更因为在虚拟环境下,用户很难从作者权威性,出版机构权威性,新颖性等印刷体信息环境下常用的评价信息资源质量的指标中判断网络信息资源质量。[7]
这些都是由网上信息的特点决
1.5 适宜于共时研究,历时研究有待技术进步与支持
共时研究,研究当代以来的各种问题时,各种资源浩如烟海,任何一个大的事件,都可以很快找到大量的信息;历时研究,当从历史的角度来研究考察许多问题时,则无法很好进行,因为数字资源的积累量太少,历史太短;“与传统图书馆比较,数字图书馆存储的信息量有限,且不系统不全面,不能满足人们系统学习研究的需要;”[10]而历史文化资源数据库的建设,需要大量的投入,需要很长的时间来进行。如根据统计,我国现存古籍10余万种,1000万册以上,如果再加上古代艺术作品、近现代资料,总量将达到几十万种。限于数字图书馆建设的重点和资金等问题,历史文化资源建设只能选其精品。[11]有人估计将俄罗斯的全部古籍数字化保存,至少需要200年时间,暂且不考虑所需资金。而且目前,我国全文文献资源数据库几乎没有,更谈不上规模,而且也没有形成统一的或兼容的格式。“像美国国会图书馆就开设了虚拟电子图书馆,但网络上无法查阅原文,只能查阅 《关于数字信息资源的另一面》
本文链接地址:http://www.oyaya.net/fanwen/view/63893.html
【摘 要 题】数字图书馆论坛
目前,在我国图书馆界几乎是言必称数字,会必议数字,刊必载数字,课必讲数字,没有“数字”就不时髦。对此,我们可以完全理解,并予以充分肯定。但是“这种热潮”带有很大的盲目性,是对数字图书馆的认识存在误区所致。笔者认为这可能反映了国内图书馆界对于实现数字图书馆在技术上的难度和各方面所需的条件还认识不足;而如果没有充分的认识和多方面的准备,我们在探索实现数字图书馆的过程中可能会走弯路。
1 应深刻认识、加深理解的几个问题
1.1 使用权与所有权问题
其实对于数字化信息资源,我们仅仅拥有使用权,仅仅在付费的那一段时间内,拥有使用权,而并无所有权。这一点与传统的纸质文献资源相比,有很大的不同。传统纸质印刷品,是一个物理实体,当你付钱购买后,你就拥有了所有权,不存在版权问题,不存在内容失真问题。数字图书馆的信息资源,受知识产权的保护限制,许多著作内容不经原著者同意,不能转换,更不能随意上网传播;一般说来,网址信息的稳定则依赖于谁拥有服务的空间,拥有者意味着网址作者控制空间的使用与内容及服务器的管理政策。而存储空间的数量则与服务器提供者的经济承受能力有关。网络空间是人们花一定费用取得的使用权。拥有网络空间就要对其进行维护,包括上网费,电话线路费,线路资源费用。
因而,数字图书馆的建设是一项高技术、高投入的工作,即使美国政府的项目,也不是由政府出全资开发建设,并且在项目的管理上多采用经营模式,技术的开发上很注重标准化和开放性。以下2002年的两则新闻,很值得引起我们重视:一则是欧洲最大的因特网数据运营商KPNQWest公司21日宣布该公司的数据网络将停止运营。KPNQWest为荷兰电信公司KPN和美国电讯商QWest组建的联合公司,已于5月31日宣布破产。据报道,该公司数据网络覆盖欧洲50个城市,其关闭将极大影响欧洲的数据传送。另一则是2002年5月15日根据国外媒体报道,在关键字(Keyword)领域较为突出的国际知名公司RealNames,于当地时间本周一裁去全部员工,宣布破产。目前RealNames已经关闭了其网站,RealNames成千上万的网络关键字客户陷入了前景不可知的境地。故应积极研究开发利用网络信息资源,对网上特定领域内的信息资源进行系统挖掘并且进行有序加工和整理,为用户提供有效利用。否则,花费了大量的人力物力,最后仅仅剩下几台电脑。
1.2 易逝性特征
为了保证网络系统检索的速度与稳定性,网络系统中的信息需要定期删除,犹如飞机中的黑匣子,它仅保留最后一段时间的详细资料,以前的资料逐次消去。而目前各国在法律上并没有规定网络服务商要承担信息保存的职责,因此网上信息有易逝性的特点,信息资源的积累较为困难。数字资料不像印刷媒体也许还能找到孤本,残本,网上电子文件在没有了之后是不留蛛丝马迹的。现在网络文件的平均寿命为44天,因特网上网页的平均寿命是75天。现在没有办法把网上所有变化全部存储下来。号称是最疯狂的新闻网站hand.com,全天24小时发布新闻,新闻内容平均6分钟更新一次,并且不存挡,因而有人发出感叹,作为人类沟通的第四媒体,互联网的历史将无以寄托[1]。同时,有关如何利用网上数字信息资源方面,当前法律方面并无明确规定。一方面有相当多的数字信息在不断消失,另一方面由于版权等原因,人们无法大胆开发利用,处于一种两难的境界。而且,经转化为数字化的信息知识,有的容易失真,甚至容易消失;数字信息载体与纸质印刷品比较,保存期短,磁带寿命为15~20年,光盘寿命为20~30年,远不及纸质印刷品在这方面稳定可靠。再则,技术更新、实体变质、病毒感染、黑客攻击、断电、误操作、服务器毁坏、系统瘫痪等因素都会影想数字信息的有效存取。“再次是技术和标准变迁时,数字资源需要周期性的归档,以便将数字资源转移,变换到新的硬件和软件平台上。由于存储技术发展迅速而导致的技术废退,那些认真开发和维护的数字藏品可能会有朝一日不能解读。”“……因特网上信息的获取这个途径基本没有利用。笔者的调查咨询还显示,98家图书馆中只有四川工业学院,上海交通大学有专人搜集因特网信息,占调查单位的2%。”[2]
在此情况下,图书馆应充分发挥自己在收藏整理方面的特长,及早动手。根据实际情况,有目的、有计划地搜集保存相关资料。无论是实体保护,还是技术环境的维护,其最终目的都是为了确保数字信息的长期可处理性,可利用性。由于数字图书馆是一个海量多媒体数据库,其信息数据最之大是前所未有。传统的二级存储器(主存储器和磁盘)已难以容纳庞大的数字图书馆数据,数字图书馆中的海量数据需要使用三级存储器存储。目前常用的三级存储器有磁带,磁盘,光盘,机器手光盘库,机器手磁盘库等。[3]在日常工作中,应重视收集因特网上更新频度快的灰色文献资源。比如动态报道,其中包含了很多具有重大情报价值的内容,一但网页更新,再也难觅其踪影,所以要求图书馆人员发挥优势,日积月累,将这类信息收入现实馆藏。[4]从而安全保存数字信息资料。
1.3 数字信息的不安全性
除了数字信息对产生信息的原有系统的依赖性,信息与实体的可分离性,信息的易改性等因素对信息的安全带来一系列的影响之外,网络安全的薄弱性是不可忽视的。计算机网络系统并不安全,有时会出现某些隐患,从而使数字信息化为乌有。互联网不安全性的原因主要有三个:网络系统过于复杂,缺陷太多,易于遭受黑客攻击;网络管理的法制体系不够健全;计算机专家设计的技术防范措施不得力。[5]另外病毒破坏、硬盘故障、电压不稳定、停电、误操作等因素都会造成服务器毁坏,系统瘫痪,信息数据丢失的问题。这些都能造成难以估量的损失。
1.4 数字信息的权威性差
“众所周知,因特网点是一个包含众多信息格式,众多信息内容的信息混合体,是一个极具价值的信息源。与有着信息质量控制机制的传统信息发布和传播模式相比,自由、开放的因特网为用户提供了更为方便、更加快捷和更为广泛的信息获取渠道,但它在为用户提供浩如烟海的信息的同时,也造成了信息过载和信息污染等传统环境下不易出现的新问题。”[6]越来越多的专家开始关注网络信息资源的质量问题,并呼吁对网络信息资源开展同传统信息环境下评价纸质文献一样的严格的质量评价。这不仅是因为网络出版具有自由与自发特性,信息发布缺乏质量控制机制,更因为在虚拟环境下,用户很难从作者权威性,出版机构权威性,新颖性等印刷体信息环境下常用的评价信息资源质量的指标中判断网络信息资源质量。[7]
这些都是由网上信息的特点决
定的。首先,Interne网上信息的发布大多未经过仔细的审阅。印刷型文献出版时,一般具有较为严格的审稿制度,以便对稿件进行修改,把大量可能出现的错误在印刷前改正。而Interne的信息发布,虽有一些单位、机构落实专人进行控制,但大多数是未经审阅的所谓“自行发布”(VanityPublishing)形式。其次,Interne信息资源数量巨大,整序不够,同种主题的WEB网站数量不断增加。现有搜索引擎的索引功能尚待完善,一次检索往往出现成千上万条命中记录的情况,令上网点检索者无所适从。第三,Interne信息资源还存在良莠不齐、信息垃圾充斥的现象。许多学者对Interne信息资源的准确性、可靠性存有怀疑,有的认为网上信息是肤浅的和不可信的[8]。由于在Interne上个人网站多,信息发布随意,除了存在虚假的信息外,还充斥着大量的价值低劣的信息。从而导致网上信息来源复杂多样,真实性、可靠性无确实保证,处于一种无序化状态,信息的组织化程序不高。由于在网上有着巨大的、不可忽视的、分布分散的信息源,以及网络信息管理机制及规范并未建立,人们在大量无序的信息中想要全面、迅速、有效地查到所需信息还比较困难,单靠几个搜索引擎是不够用的。《时代周刊》曾评论道:“因特网与其说是把新用户带入了新世界,不如说是把他们引进了茫茫无际的大海”。[9]
1.5 适宜于共时研究,历时研究有待技术进步与支持
共时研究,研究当代以来的各种问题时,各种资源浩如烟海,任何一个大的事件,都可以很快找到大量的信息;历时研究,当从历史的角度来研究考察许多问题时,则无法很好进行,因为数字资源的积累量太少,历史太短;“与传统图书馆比较,数字图书馆存储的信息量有限,且不系统不全面,不能满足人们系统学习研究的需要;”[10]而历史文化资源数据库的建设,需要大量的投入,需要很长的时间来进行。如根据统计,我国现存古籍10余万种,1000万册以上,如果再加上古代艺术作品、近现代资料,总量将达到几十万种。限于数字图书馆建设的重点和资金等问题,历史文化资源建设只能选其精品。[11]有人估计将俄罗斯的全部古籍数字化保存,至少需要200年时间,暂且不考虑所需资金。而且目前,我国全文文献资源数据库几乎没有,更谈不上规模,而且也没有形成统一的或兼容的格式。“像美国国会图书馆就开设了虚拟电子图书馆,但网络上无法查阅原文,只能查阅 《关于数字信息资源的另一面》