一种基于人机结合思想的书本式地方文献索引编制方法
索引正文生成功能。软件自动根据关键词表中的关键词及其相互关系,对主表中的数据进行处理,按照索引要求,将相同关键词的卷号、页码、体裁代码按照卷数、页码先后排列,并根据关键词表中的参照系统,作出相应处理,将“所见”关键词的页码自动归并到“被见”关键词后,并作出“参见”说明。
3.2.3 信息输出功能。该功能可分两种情况:一种是以数据库的形式输出阶段性的查询操作结果,一种是文本文件形式输出结果。第一种情况的查询功能包括主表查询、关键词表查询,它支持精确和模糊查询。第二种情况的信息输出可分为三种输出格式,分别对应于索引编制的不同阶段。其中格式1是在对主表输入标引词及其属性等原始信息后输出的格式,它主要是用来和标引原始记录进行校对。格式1以页码为顺序排列关键词,其格式如下:
格式1:页码1———关键词1(Keyword 1)[说明语(Description)][见关键词2][参见关键词3]……
格式2为利用本文中设计的人工干预算法所生成的计算机提示信息。格式如下:
情况“一见多(连续见、循环见)”———请查看:
关键词n(Keyword n)—[地址码m(addressm)]m,n=1,2,……这里,地址码包含卷数和页码,均为出现错误的卷数、页码数。
这里,地址码包含卷数和页码,均为出现错误的卷数、页码数。
格式3 为索引正文输出格式,又分为A、B、C三种子格式:格式3A:关键词(Keyword)[说明语(Description)]地址码n(address n);
格式3B:关键词(Keyword)[说明语(Description)]见(See)关键词;
格式3C:关键词(Keyword)[说明语(Description)]地址码n(addressn)
[参见(Seealso)关键词];n=1,2,……这三种格式分别对应索引正文中的三种情况,见图3。
格式3为索引正文形式(见图4),款目标题按关键词的拼音顺序排列,将数据处理部分中索引正文生成的结果输出到文本文件,以便索引编制者在Microsoftword或方正等专业排版系统中再进行版式处理。
此外,CAIC1.0Beta在程序中间处理过程中将被倒置处理的前置词还原至关键词前面,并在这些前置词前后分别添加“(”、“)”。同时还可在页码和标目词之间添加一定的分隔符,以方便排版工作的进行。
4 实际应用效果
为了保证CAIC1.0Beta有良好的运行效果,建议电脑硬件配置为CPU586以上,内存32兆;软件环境为Windows95/98/2000,并有MicrosoftAccess数据库。以《杭州市志》索引为例,《杭州市志》正文共11卷780万字,经过标引处理共提取了105077条(次)关键词,经处理生成关键词表,共有关键词55692条。实际操作中,我们使用方正商祺治理发愣功0电脑(CPU为PⅢ733,内存64M)进行处理,除去标引、校对阶段工作时间与投入的人力相关外,其中数据处理阶段,关键词表生成约15分钟,索引正文生成约60分钟,索引正文输出约15秒。如果改进算法,还可以进一步提高速度。
本软件系统具有索引生成准确、速度快、少用人工、使用简单、人机界面良好、运行稳定可靠等特点。其中数据处理阶段的效率比手工操作提高了数百倍,因此与整个索引制作所用时间相比,程序处理的时间几乎可以忽略不计。
5 结论及展望
通过此次《杭州市志》索引的计算机辅助编制实践证明,采用本文介绍的方法可以比较圆满地解决本文开始提出的问题,即由于地方文献的独特性及标引深度提高而导致的关键词急剧增多和人工编制速度慢、准确率低的矛盾,因此该方案具有一定的实用和推广价值。同时,由于方志索引内容的相似性,本次索引编制中生成的关键词表还为今后构造方志关键词表打下了良好的基础。
展望地方文献索引,特别是方志索引今后的发展趋势,可以预见,如果我们运用关键词索引法、链式索引法、选择组合排列索引法等现代索引法,引入包括语用学、语义学、语法学等语言学研究成果和计算机人工智能、专家系统等技术,研究适合地方文献特点的自动索引策略,就可逐步达到对于地方文献正文的内容自动分析,实现计算机自动抽词和标引,使地方文献索引的编制基本实现自动化,从而使地方文献索引的编制从现在的人机分量均等的结合模式逐步过渡到电脑占更多分量的阶段。
〔出处〕 情报杂志2003(2)
《一种基于人机结合思想的书本式地方文献索引编制方法(第2页)》