馆藏文献优先数字化的策略思考
的是极少数,但绝大多数文献经过补缺后,明显地提高了自身史料价值。有些重要报纸,长期破坏严重,经过大规模补缺,大多充实了内容。又如,对于古籍善本,在缩摄前还请了研究古籍的行家负责古籍善本著录标板的校编等。因而,直接对缩摄胶片进行数字化要比对其原件数字化,所获取的信息更完整、更充实。
由上可见,优先将缩微胶片文献转换为数字文献,无论从哪个角度分析都是十分有必要的。
2 宜于优先数字化的文献类型
馆藏文献的数字化除需要大量的人力、物力与财力外,还需要成熟的技术支持。尽管在馆藏文献数字化方面,我们已经取得不少成果,但许多问题仍在探索之中。我们优先数字化的对象应是具有成熟的技术支持、具有成功的经验可以借鉴,并且其转换经费还得合理。对于一些文献对象数字化后,其存取格式不为用户所认同,或在当前技术条件下进行数字化可能投资过大的,都应暂缓数字化。
当前,模拟转换后的文献大多可用两类格式进行存取,一类是图像格式,另一类是文本格式。这两类格式各有弊利,并各适于不同类型的文献。在制定优先数字化策略时,我们必须对这些问题进行认真分析。
2.1 存取格式与实现方式分析
通过对传统文献进行扫描或数码相机拍摄就可以得到传统文件的数字图像拷贝。数字图像文献的最大优点是可以保存文献原貌;制作技术相对简单、制作成本相对低。其最大的缺点是占用存贮空间较大,影响传递速度,但通过压缩技术的不断提高,这个问题不会是影响数字图像利用的主要问题。其关键的问题是,尽管可以制作一些检索工具提高对数字图像文献的检索速度,但目前的技术只能检索到检索词所在的页面,不能像文本文件那样可以逐词、逐字检索到该字、词所在的句、段。这种存取格式最适于传统图片、图形文献,以及其他必须保存文献原貌的文献。
以文本方式存储文献信息的最大优势是可以通过检索系统实现模糊检索和逻辑检索,其检索深度直到所需查询的检索词所在的字句,查全率、查准率高,且检索速度快。其最大的缺点是不能保留文献的原貌以及原文献的字体,转换成本高,转换速度慢。对于以文本格式转换馆藏文献的不足,我们是可以回避的。例如,对一些不需要必须保留文献原貌的,只需要保留内容信息的文献可选取这种方式转换,但是该转换成本与转换速度是我们目前无法克服的。
目前将传统文献转换为文本格式文献主要有两种方式,一是键盘输入。用键盘录入文献内容不仅转换速度慢,录入过程中还会出现较多的文字错误,需要较大的校对工作量,无法实现工业化的资源生产。因而键盘录入方式对于大量传统文献的数字化转换工作,是没有经济可行性的。二是先转换成图像文件后再通过OCR软件将其变为文本格式。它是利用扫描仪和OCR软件(OCR:光学字符识别)。拟转换的文献先用扫描仪扫描,再用OCR软件识别,便可以将传统文献转换为可编辑加工的文本文件了。
中文OCR光学字符识别是一种文字文稿的自动输入方式,将一份文献的数字图像输入计算机,计算机取出每个文字和图像,并将其转换为汉字的编码。它不再需要敲击键盘,就可以将传统文献转换为数字文本文件。
我国从70年代末就开始研究OCR技术,到80年代中期,中文OCR已可识别上万个汉字,识别率在90%左右的软件已相当多,可以说中文OCR软件在模数转换中已经走向了实用。例如,“汉王OCR录入系统”可实现对各种现代书籍、简繁体书籍、报刊杂志、公文档案的录入识别,且识别率较高,速度快、还能实现横校、纵校与对比校等。
然而,对于馆藏文献的数字化而言,由于汉字的复杂性,OCR对各类中文文献的识别远难于英文与数字的识别,如果识别率低于90%,OCR在馆藏文献数字化的实践中就会失去意义。因为过多的错误会花费大量精力和时间去校对,这会抵消OCR技术带来的效率,特别对于以下几类文献,OCR技术目前尚不能成功地解决问题:
2.1.1 含有繁体手写汉字的古籍文献
由于当前OCR还不能识别大字符集的繁体手写汉字,因而这类古籍文献如果想要数字化为文本格式,最大困难在于OCR识别后的校对工作。由于古籍还需要很多研究古籍的专家来对文本进行核对,因而失去了使用OCR的积极意义。
2.1.2 简繁混排的中文文献
这类文献识别率低,目前所有中文OCR都将识别字典分为简体字集和繁体字集来提供给用户,而对20世纪30年代至70年代的大量简繁汉字混合使用的印刷品,无论用户选择简体还是繁体,其识别率都极低。
2.1.3 专业性强的中文文献
这类文献误识率高,现有中文OCR基本上以GB2312-80的一级汉字作为基本字符集,对专业性较强的印刷品识别率不高。
2.1.4 难于机检的汉字文献
即使汉字库的容量非常之
综上所述,考虑到图书馆文献的多样性,以及用户对不同类型文献不同检索要求以及当前技术的可行性,必须提出优先数字化的文献类型的选择问题。将一些由于技术问题暂不能达到满意的检索效果,或利用当前技术将其转换为用户欢迎的格式可能费用过高的文献对象,暂缓考虑数字化。等待技术的发展或经验的累积再进行这类文献的转换工作,可能会更恰当、更现实。为此,笔者提出了优先数字化的文献类型设想。
2.2 优先数字化的文献类型
鉴于以上分析,笔者建议以下类型文献可以优先考虑数字化:
2.2.1 直接转换为图像文献就可以满足用户存取需求的对象,可优先数字化。
传统文献可以以多种方式转换为数字图像文献,例如,直接扫描、拍摄文献原件,或扫描其缩微拷贝等。其转换技术简单,转换成本相对较低,因而国际上目前的数字资源中,图像数据库与全文数据库的比例大约是9∶1(注:许绥文.漫笔之三:馆藏资源的数字化.北京图书馆馆刊,1998(2))。只要给每一图像文件赋一个文件名,并与对应的索引工具相链接,通过查找索引条目就可以直接得到该图像文件。因而,凡不必制作文本文件就可以满足用户需求的文献对象,均可以考虑优先数字化。这种类型文献主要有:图形或图像文献,书法篆刻,版画,名人手迹,印章,简、帛、金石铭文,拓片,甲骨文等。
(1)图形图像文献
图形图像文件是基本不以或完全不以文字记录信息,而是以图像或图形等形象化语言揭示人、物与事等的非文字文献。比起文字文献来,图形图像更鲜明、更直观、更生动。这类文献对象如图录、图片与版画等。
图录主要是用图形、图像或附以简要文字,反映各种事物、文物、人物、艺术、自然博物及科技工艺等形象的文献。图录包括地图和历史图谱、文物图录、人物图录、艺术图录、科技图谱等。图录有的编集各种历史图片资料,汇编各种绘图资料,或是摹绘、摄制和编集各种文物、人物、自然博物及科技工艺资料等,对于历史研究、文艺工作、工艺制作及科学技术研究都有重要的参考价值。
与图录文献不同,图片文献(包括照片与插图等),它们大多并未汇编为一集,而分散在不同文献之中。特别是照片,随保存时间延长,画面逐渐发黄,颜色消退,质地变脆;许多图片文献由于年代久远、存放分散而鲜为人知,使许多有史料价值的图片,湮没在浩瀚书海中。因而,无论从保存、利用还是管理的角度考虑,这类文献都需要优先数字化。
法国十分重视图形图像文献的数字化工作,早在上个世纪末,法国图书馆与各城市精品藏书馆合作,将原本分散于法国各地的古书的艺术插页用彩色高分辨率扫描入CD-R光盘中,送至国家图书馆新馆汇集后上网,让全世界与法国共享法国文化艺术精品,博得很高声誉(注:许绥文.漫笔之三:馆藏资源的数字化.北京图书馆馆刊,1998(2))。
(2)文字形体具有特殊价值的文字文献
有些文字文献,除文字表述的内容有价值外,其文字形体特征也具有重要的研究价值或欣赏价值,如果将其以全文本形式数字化,不仅费用太高而且将丢失字型本身所含有的重要价值。这类文献更宜于数字化为数字图像。因而,这类文献宜于优先数字化,例如金文、甲骨文或其他图形文字,简、帛、金石铭文,拓片,书法篆刻,名人手迹,印谱等。
2.2.2 OCR识别率高的文字文献
只要调制好扫描输入的技术指标,OCR的识别率可达90%以上的文字文献可考虑优先数字化为全文本文献,利用检索系统提供多途径检索。这一选择原则主要是基于数字化的成本与技术的可行性考虑的。一般说来,学术期刊、报纸文献以及现代书刊比较其他古籍文献来讲,OCR识别率较高。
【参考文献】
1 陈天伦.缩微工作十年.图书馆研究与工作,1997(1)
2 李健.我国图书馆的缩微工作.中国图书馆学报,1997(3)
3 任永芳.中文OCR与图书资料的再制作.江苏图书馆学报,2001(3)
4 凌山.OCR汉字识别技术.工程设计、CAD与智能建筑,1999(6)
5 National   《馆藏文献优先数字化的策略思考(第2页)》
本文链接地址:http://www.oyaya.net/fanwen/view/62764.html
由上可见,优先将缩微胶片文献转换为数字文献,无论从哪个角度分析都是十分有必要的。
2 宜于优先数字化的文献类型
馆藏文献的数字化除需要大量的人力、物力与财力外,还需要成熟的技术支持。尽管在馆藏文献数字化方面,我们已经取得不少成果,但许多问题仍在探索之中。我们优先数字化的对象应是具有成熟的技术支持、具有成功的经验可以借鉴,并且其转换经费还得合理。对于一些文献对象数字化后,其存取格式不为用户所认同,或在当前技术条件下进行数字化可能投资过大的,都应暂缓数字化。
当前,模拟转换后的文献大多可用两类格式进行存取,一类是图像格式,另一类是文本格式。这两类格式各有弊利,并各适于不同类型的文献。在制定优先数字化策略时,我们必须对这些问题进行认真分析。
2.1 存取格式与实现方式分析
通过对传统文献进行扫描或数码相机拍摄就可以得到传统文件的数字图像拷贝。数字图像文献的最大优点是可以保存文献原貌;制作技术相对简单、制作成本相对低。其最大的缺点是占用存贮空间较大,影响传递速度,但通过压缩技术的不断提高,这个问题不会是影响数字图像利用的主要问题。其关键的问题是,尽管可以制作一些检索工具提高对数字图像文献的检索速度,但目前的技术只能检索到检索词所在的页面,不能像文本文件那样可以逐词、逐字检索到该字、词所在的句、段。这种存取格式最适于传统图片、图形文献,以及其他必须保存文献原貌的文献。
以文本方式存储文献信息的最大优势是可以通过检索系统实现模糊检索和逻辑检索,其检索深度直到所需查询的检索词所在的字句,查全率、查准率高,且检索速度快。其最大的缺点是不能保留文献的原貌以及原文献的字体,转换成本高,转换速度慢。对于以文本格式转换馆藏文献的不足,我们是可以回避的。例如,对一些不需要必须保留文献原貌的,只需要保留内容信息的文献可选取这种方式转换,但是该转换成本与转换速度是我们目前无法克服的。
目前将传统文献转换为文本格式文献主要有两种方式,一是键盘输入。用键盘录入文献内容不仅转换速度慢,录入过程中还会出现较多的文字错误,需要较大的校对工作量,无法实现工业化的资源生产。因而键盘录入方式对于大量传统文献的数字化转换工作,是没有经济可行性的。二是先转换成图像文件后再通过OCR软件将其变为文本格式。它是利用扫描仪和OCR软件(OCR:光学字符识别)。拟转换的文献先用扫描仪扫描,再用OCR软件识别,便可以将传统文献转换为可编辑加工的文本文件了。
中文OCR光学字符识别是一种文字文稿的自动输入方式,将一份文献的数字图像输入计算机,计算机取出每个文字和图像,并将其转换为汉字的编码。它不再需要敲击键盘,就可以将传统文献转换为数字文本文件。
我国从70年代末就开始研究OCR技术,到80年代中期,中文OCR已可识别上万个汉字,识别率在90%左右的软件已相当多,可以说中文OCR软件在模数转换中已经走向了实用。例如,“汉王OCR录入系统”可实现对各种现代书籍、简繁体书籍、报刊杂志、公文档案的录入识别,且识别率较高,速度快、还能实现横校、纵校与对比校等。
然而,对于馆藏文献的数字化而言,由于汉字的复杂性,OCR对各类中文文献的识别远难于英文与数字的识别,如果识别率低于90%,OCR在馆藏文献数字化的实践中就会失去意义。因为过多的错误会花费大量精力和时间去校对,这会抵消OCR技术带来的效率,特别对于以下几类文献,OCR技术目前尚不能成功地解决问题:
2.1.1 含有繁体手写汉字的古籍文献
由于当前OCR还不能识别大字符集的繁体手写汉字,因而这类古籍文献如果想要数字化为文本格式,最大困难在于OCR识别后的校对工作。由于古籍还需要很多研究古籍的专家来对文本进行核对,因而失去了使用OCR的积极意义。
2.1.2 简繁混排的中文文献
这类文献识别率低,目前所有中文OCR都将识别字典分为简体字集和繁体字集来提供给用户,而对20世纪30年代至70年代的大量简繁汉字混合使用的印刷品,无论用户选择简体还是繁体,其识别率都极低。
2.1.3 专业性强的中文文献
这类文献误识率高,现有中文OCR基本上以GB2312-80的一级汉字作为基本字符集,对专业性较强的印刷品识别率不高。
2.1.4 难于机检的汉字文献
即使汉字库的容量非常之
大,在具体工作中,仍然有一些文字无法用字库中的汉字检索,如古代钟鼎文、甲骨文、篆字或其他图形汉字等。这些还有待于技术的进一步的开发,例如,近几年来,华东师大中国文字研究与应用中心正在大力开展古文字信息化处理研究,现已突破了计算机处理古文字的一系列难题。不久前开发出了“金文资料库”和“金文字库”,实现了严格意义上的金文的计算机文字处理等,使之既能最大限度地反映古文字原貌,又能快速地深入到句、段进行检索(注:文其.古文字信息化处理的可喜进展.光明日报,2002-05-22)。
综上所述,考虑到图书馆文献的多样性,以及用户对不同类型文献不同检索要求以及当前技术的可行性,必须提出优先数字化的文献类型的选择问题。将一些由于技术问题暂不能达到满意的检索效果,或利用当前技术将其转换为用户欢迎的格式可能费用过高的文献对象,暂缓考虑数字化。等待技术的发展或经验的累积再进行这类文献的转换工作,可能会更恰当、更现实。为此,笔者提出了优先数字化的文献类型设想。
2.2 优先数字化的文献类型
鉴于以上分析,笔者建议以下类型文献可以优先考虑数字化:
2.2.1 直接转换为图像文献就可以满足用户存取需求的对象,可优先数字化。
传统文献可以以多种方式转换为数字图像文献,例如,直接扫描、拍摄文献原件,或扫描其缩微拷贝等。其转换技术简单,转换成本相对较低,因而国际上目前的数字资源中,图像数据库与全文数据库的比例大约是9∶1(注:许绥文.漫笔之三:馆藏资源的数字化.北京图书馆馆刊,1998(2))。只要给每一图像文件赋一个文件名,并与对应的索引工具相链接,通过查找索引条目就可以直接得到该图像文件。因而,凡不必制作文本文件就可以满足用户需求的文献对象,均可以考虑优先数字化。这种类型文献主要有:图形或图像文献,书法篆刻,版画,名人手迹,印章,简、帛、金石铭文,拓片,甲骨文等。
(1)图形图像文献
图形图像文件是基本不以或完全不以文字记录信息,而是以图像或图形等形象化语言揭示人、物与事等的非文字文献。比起文字文献来,图形图像更鲜明、更直观、更生动。这类文献对象如图录、图片与版画等。
图录主要是用图形、图像或附以简要文字,反映各种事物、文物、人物、艺术、自然博物及科技工艺等形象的文献。图录包括地图和历史图谱、文物图录、人物图录、艺术图录、科技图谱等。图录有的编集各种历史图片资料,汇编各种绘图资料,或是摹绘、摄制和编集各种文物、人物、自然博物及科技工艺资料等,对于历史研究、文艺工作、工艺制作及科学技术研究都有重要的参考价值。
与图录文献不同,图片文献(包括照片与插图等),它们大多并未汇编为一集,而分散在不同文献之中。特别是照片,随保存时间延长,画面逐渐发黄,颜色消退,质地变脆;许多图片文献由于年代久远、存放分散而鲜为人知,使许多有史料价值的图片,湮没在浩瀚书海中。因而,无论从保存、利用还是管理的角度考虑,这类文献都需要优先数字化。
法国十分重视图形图像文献的数字化工作,早在上个世纪末,法国图书馆与各城市精品藏书馆合作,将原本分散于法国各地的古书的艺术插页用彩色高分辨率扫描入CD-R光盘中,送至国家图书馆新馆汇集后上网,让全世界与法国共享法国文化艺术精品,博得很高声誉(注:许绥文.漫笔之三:馆藏资源的数字化.北京图书馆馆刊,1998(2))。
(2)文字形体具有特殊价值的文字文献
有些文字文献,除文字表述的内容有价值外,其文字形体特征也具有重要的研究价值或欣赏价值,如果将其以全文本形式数字化,不仅费用太高而且将丢失字型本身所含有的重要价值。这类文献更宜于数字化为数字图像。因而,这类文献宜于优先数字化,例如金文、甲骨文或其他图形文字,简、帛、金石铭文,拓片,书法篆刻,名人手迹,印谱等。
2.2.2 OCR识别率高的文字文献
只要调制好扫描输入的技术指标,OCR的识别率可达90%以上的文字文献可考虑优先数字化为全文本文献,利用检索系统提供多途径检索。这一选择原则主要是基于数字化的成本与技术的可行性考虑的。一般说来,学术期刊、报纸文献以及现代书刊比较其他古籍文献来讲,OCR识别率较高。
【参考文献】
1 陈天伦.缩微工作十年.图书馆研究与工作,1997(1)
2 李健.我国图书馆的缩微工作.中国图书馆学报,1997(3)
3 任永芳.中文OCR与图书资料的再制作.江苏图书馆学报,2001(3)
4 凌山.OCR汉字识别技术.工程设计、CAD与智能建筑,1999(6)
5 National   《馆藏文献优先数字化的策略思考(第2页)》