用PDF文档制作特色文献全文数据库的实践
摘要:文章系统分析了PDF文档的特点,根据开发"粤北地方文献全文数据库"的方法和实践,指出图书馆制作特色文献数据库应首选PDF文档。
中图分类号:250.74
文献标识码:B
文章编号:1006-1525(2004)01-0046-03
国家数字图书馆是依托互连网连接起来的全国各地图书馆电子信息数据库群,其信息基础由国家图书馆藏文献信息、网络信息、各地图书馆藏特色文献信息构成。全国各地的地方特色文献是国家数字图书馆中具有重要意义的信息,地方图书馆尽快设法将这些信息数字化是国家数字图书馆工程的重要基础。下面是我馆以PDF文档格式制作"粤北地方文献数据库"的一点认识和经验。
1什么是PDF
PDF是Adobe公司开发的一种电子文档格式PortableDocumentFormat的简称,这是一种可移植的结构化通用文档格式,它可以将任何文字、表格、颜色、图形图像、超文本链接、声音、动态图像等信息封装在一个电子文档中,而不管创建该文档所使用的应用程序和平台。AdobePDF是出版业新兴的工作流程标准。
PDF文档是通过一系列对象序列来构造的,PDF对象包括直接对象(DirectObject)和间接对象(IndirectObject)。直接对象通常有布尔型(Boolean)、数值型(Number)、字符串型(String)、名字型(Name)、数组型(Array)、字典型(Dictionary)、空对象(Null)、流对象(Stream)等基本类型,间接对象是经过标识了的PDF对象。一个PDF文档包含了一个或多个页面,而每一页都可以包含文档、图形和图像。一个典型的PDF文件包含文件头、文件主体、交叉引用表和文件尾4个部分。文件头(Header)位于PDF文档的第一行,它表明当前文件使用PDF规范的版本;文件体(Body)中包括构成文件间接对象的一个序列,这些对象代表文档中的各个组件,例如字体、页数和图像等,交叉引用表(Cross-referenceTable)则是为了能对间接对象进行随机存取而设立的一个间接对象地址索引表,它给出了所有当前文件使用对象的入口地址,即字节偏移量,以便系统随机访问不同的对象;文件尾(Trailer)中包含了交叉引用表的起始地址和其中的对象总数、文档中Catalog(目录)对象的对象号以及加密等安全信息,根据文件尾提供的信息,PDF的应用程序可以找到交叉引用表和整个PDF文件的目录对象,从而控制整个PDF文档。
2PDF的特点
目前国内文献数字技术飞速发展,已有多家文献数字化处理系统,据笔者所知,DIPS数字文献处理系统、TRS系统等都是性能出色的系统,而价廉物美的AdobeAcrobatReader制作利用PDF文档确实是最好选择。用PDF制作电子文献只需安装:(1)中文操作系统;(2)任何字处理软件,排版软件,图形软件;(3)中文4.0版本以上的AdobeAcrobat。ActivePDF公司还发布了以ActivePDFServer为中心PDF工具包。ActivePDFServer是一个服务器软件,可以读取几乎所有Windows应用文档,并把它们转换成PDF格式。该服务器软件有标准版和专业版两个版本,专业版支持PDF加密解密。软件包的其他工具还有DocConverter(能将280多种文档转换成PDF)、Web Grabber(能将HTML转换成PDF)、Spooler(打印服务器的PDF文档)等。
PDF是从页面描述语言PS(PostScript)发展而来,具有与PS几乎相同的页面描述能力和相似的描述方法。但与PS不同的是,PDF除了能描述复杂版面外,还具有交互功能(如超链接、交互表单等)、页面随机存取及图形字体仿真描述等特性。因此,PDF不仅适合印刷出版,而且也适合电子出版,是全世界电子版文档分发的公开实用标准。
PDF与在电子出版中占统治地位的HTML语言相比也有自己明显的优势,实现了纸张印刷和电子出版的统一。排版后的内容生成PDF文件,则能在交付印刷的同时,进行网络数字化发行。此外,PDF还有下列优点:
(1) 容易制作和利用---大众化
制作PDF格式的多媒体电子图书目前主要有三种途径:第一是应用专门的PDF制作工具软件进行制作;第二是将包含有Postscript页面描述语言的文件转换成PDF文档;第三是利用转换工具把其他格式文件(如DOC、HTML等)转换成PDF文档。
(2)跨平台应用---通用性
集约的PDF文件比原来的源文件小很多,以致在Web上下载文件的同时可以快速地显示页面。PDF独立于软件、硬件和创建的操作系统平台,任何人都可以使用免费的AdobeAcrobatReader在任何电脑、任何系统平台上共享、查看、浏览和打印,并具有强大的全文检索功能。
(3)高效的浏览和打印---所见即所得
压缩的AdobePDF文件比源文件小,每次下载一页,可以在网页上快速显示,而且不会降低网络速度。创建PDF者可以加入书签,Web链接来使PDF文件容易浏览,读者可以直接使用电子化的便笺、高亮度显示、下划线等来对PDF文件进行标注。不管你的显示器是何种类型,PDF文件精确的颜色匹配保证忠实再现原文。读者可以放大或缩小一个文件以适应屏幕和自己的视觉,PDF文件可以放大到800%而丝毫不损失清晰。由于PDF文件是以PostScript语言图像模型为基础,它将忠实地再现原稿的每一个字符、颜色以及图像,正适合特色文献载体种类繁多、形式各异的数字化要求。PDF文档无论在哪种打印机上都可保证图形精确、颜色准确的打印效果。
(4)高安全加密特性---版权保护
使用Acrobat5.0软件,可以轻松添加书签,设置安全选项以及生成微型AdobePDF预览视图,Acrobat5.0还可以在网页浏览器内使用"数字签名",从而对AdobePDF文档加上评语或对其予以准核。对PDF"加密"可以控制敏感信息的可访问性,能够控制机密文件的访问权限,防止PDF被改动或打印。"数字签名"更可对审阅过程的每一步进行控制。由于PDF文档具有的种种优点,使它成为出版界的新宠,目前网上的电子出版物大多采用PDF文档格式发行。利用PDF格式制作特色文献全文数据库可以保留发表出版时的原版原式,图文并茂,既可以直接打印,也可以下载保存。
3用PDF文档制作特色文献全文数据库
鉴于PDF的上述优点,我馆在建设"学院科研成果管理系统"和"粤北地方文献全数据库"时就选用PDF文档格式,建设和运行的效果良好。
3.1PDF文档制作
安装了Acrobat之后,在Windows控制面板中的"打印机"中会出现两种Acrobat的虚拟打印方式---AcrobatDistiller以及AcrobatPDFWriter,通过我们的反复测试,建议使用PDFWriter来打印中文电子文档,原因有二:第一,打印出的PDF文档体积小;第二,比Distiller可以更快速地制作。
特色文献通常表现为论文、专著、实验数据、统计表格、绘画图片、音像制品,多表现为文本文件、HTML文件、DOC文件、JPG或RTF文件等等,这些文档都可以转换成PDF格式文档。根据我们的实践,建议能转换成DOC文件的尽量使用MSWord来制作PDF文档。需要注意的是,使用Word排版,正文文字选择"黑体,五号"或者"宋体加粗,五号"为最佳打印字体,标题及其他文字大小、颜色可以自定义,但是字体最好也要选择上述两种字体。图片建议选择JPG或者GIF图像,不推荐使用BMP图像。Word文档的页面大小最好为16开、32开或者B5,因为对于A4这样的大小,一行上的文字会容纳很多,这样不利于读者阅读。
如上所述,AcrobatPDFwriter可将任何格式的文档转换成PDF文档,它是一个模拟的"打印"驱动程序,即在客户应用程序中调用打印命令,以"打印"文件的方式创建PDF格式的文档。PDFwriter的使用方法是:首先安装该软件,安装完成后在Windows打印机设置的列标上将增加PDFwriter;然后启动应用程序并打开用于转换的文件,在菜单或工具栏中选择"打印";在打印机名称菜单上选择PDFwriter;接着选择目标目录并为PDF文档取名;在填写完相应的信息后,PDFwriter将会自动生成PDF文档。AcrobatDistiller是一个可以用来制作和编辑PDF格式文件的高端PDF文档生成器,利用它可以将Postscript文件转换成PDF文档。AcrobatPDFmaker则是一个系列工具,例如AcrobatPDFmakerForWord97可在Word97中直接将编辑
《用PDF文档制作特色文献全文数据库的实践》