《中国分类主题词表》WEB数据库建设
【内容提要】本文介绍了《中国分类主题词表》WEB数据库采用微软公司ASP与SQL SERVER2000的集成技术开发研制,论述了《中国分类主题词表》WEB数据库建设的必要性,选用的软件、建库的重点及检索的途径。
【摘 要 题】信息化与网络化建设
【关 键 词】中国分类主题词表/WEB数据库/ASP/SQL &nbs
1994年正式出版发行的《中国分类主题词表》(以下简称《词表》)是在《中国图书馆图书分类法》第3版(含《中国图书资料法》第3版)和《汉语主题词表》基础上编制的大型分类法,是一部集分类、主题为一体的综合性工具书。它从内容到形式、从结构到语义等方面,实现了分类语言与主题语言、先组语言与后组语言的相互兼容。该表实现了经一次主题分析,通过标引数据的转换,同时完成分类标引和主题标引,因而降低了标引难度,提高了标引质量,节省了人力和物力;便于分类检索和主题检索以及有分类号、主题词和自然语言三者组成的混合检索,实现了分类检索和主题检索的互补,提高了检全率和检准率。
ASP技术可以简便易行地实现构建Web数据库的查询程序,它集简单与高效于一身,可以非常直观地开发出复杂的Web应用,基于ASP开发的《中国分类主题词表》Web数据库具有良好的交互式使用方式,将有助于它在中国各类图书馆、文献情报机构中普及使用,大大地提高图书分类的准确度与效率,对我国图书情报机构文献管理和图书情报服务的现代化具有深远意义。
1 《中国分类主题词表》电子化的必要性
我国分类主题一体化的发展趋势在很大程度上取决于《词表》的出版和使用。由于《词表》的广泛使用,推广了主题工作、提高了主题标引的质量,为文献标引工作提供了权威的标引依据。但是,随着科学技术的发展与社会的进步,面对先进的网络技术、计算机技术在图书馆广泛应用的前景,标引人员不仅要求《词表》能满足新学科、新技术、新主题文献标引的动态需要,还呼唤能实现各种文献信息的自动标引或智能标引,满足各种用户包括读者在内的文献信息检索需要,实现自动检索或智能检索。
实现自动标引的基础是用于标引的词表库。系统标引词表库是自动标引系统辅助标引人员寻找合适的分类标识、主题标识和标识间相互转换的依据。由于《词表》完成了分类法类目与主题词或主题词串的对应,使得文献分类标引和主题标引同步进行变得易于实现,因此《词表》为标引词库表的建立奠定了坚实的基础。
电子化的《词表》首先摆脱了计算机编目中的分类主题手工标引,充分利用Microsoft SQL Server为基础建立起来的大型数据库应用程序,系统界面友好、操作简便,计算、分析、检索功能非常强大,提高了标引质量,节省了人力。其次也解决了由于外在因素带来的使用上的不便,比如印刷版《词表》价格高,一般图书馆只买一部,至多两部,而中型以上的图书馆从事文献标引工作的人员不少于两人,《词表》作为必备的常用工具书,就明显不够用,尤其是在回溯建立馆藏文献数据库时,情况更为突出,严重影响了工作进度。又如《词表》体积大,作为标引人员随时都在翻阅的工具书,就显得十分笨重和不方便,不到一年就破损严重。以上种种原因表明,电子化的《词表》是十分必要的,也只有将《词表》电子化、网络化,才能充分发挥它所蕴藏的多种潜在功能。
2 《中国分类主题词表》WEB数据库建库软件
《中国分类主题词表》的数据量比较大,数据库有20多万条记录,要有相应快的响应速度,并且需要支持多人同时访问。SQL Server 2000能满足以上要求。以CⅡ800的计算机为例,检索21万条记录的数据库只需要6秒。
2.1 SQL Server 2000完全的Web支持
SQL Server 2000提供了以Web标准为基础的扩展数据库编程功能。丰富的XML和Internet标准支持允许使用内置的存储过程以XML格式轻松存储和检索数据。还可以使用XML更新程序容易地插入、更新和删除数据。SQL Server 2000具有强大的Web访问功能,使用HTTP可向数据库发送查询、对数据库中存储的文档执行全文搜索以及通过Web进行自然语言查询。
2.2 SQL Server 2000高度的可伸缩性和可靠性
使用SQL Server 2000可以获得非凡的可伸缩性和可靠性。通过向上伸缩和向外扩展的能力,SQL Server满足了苛刻的电子商务和企业应用程序要求。向上伸缩。SQL Server 2000利用了对称多处理器(SMP)系统。SQL Server Enterprise Edition最多可以使用32个处理器和64 GB RAM。向外扩展。向外扩展可以将数据库和数据负载分配给多台服务器。可用性。通过增强的故障转移群集、日志传送和新增的备份策略,SQL Server 2000达到了最大的可用性。
2.3 ASP技术的使用
ASP是Active Server Pages的简称,它是一种在微软公司的WEB服务器IIS(Internet Infomation Server)上开发交互网页的新技术。微软公司最初在IIS3.0版上使用它以取代CGI。随着Windows NT在WWW上的使用日益增多,ASP已经成为了开发动态网站、构筑Internet和Intranet应用的最佳选择。
如果你的计算机上装的是Windows NT 4.0,那么你可以通过安装NT的可选包WindowsNT Option Pack 4.0来安装IIS4.0,然后你就可以在IIS4.0里使用ASP了。如果你的操作系统是Windows 98,那么你可以在Win98光盘里找到一个ADD-ONS目录,下面的PWS目录里面有一个小型WWW服务器软件PWS(PersonalWeb Server),它也可以支持ASP。而Windows &nbs
3 《中国分类主题词表》WEB数据库建库重点
(1)《词表》WEB数据库除包含现有《词表》的全部内容,重点应以《中图法》第四版为基础,全面修订主题词及其与《中图法》四版类目的更新对应关系,对从三版到四版删改的分类号、类名、注释、对应的主题词及其参照关系进行修订,对新增类目和调整的类目编制对应主题词,对删改的叙词应建立参照关系或进行沿革注释。
(2)《词表》WEB数据库要重点修订现有《词表》中类目与主题词的对应关系,提高《词表》的分类主题一体化标引功能和检索功能,使《词表》无论从类号还是从主题词检索都可查全相应的主题词和类号。如第一卷中"J915"下没有“音响模拟”一词,类似情况说明现有《词表》第一卷并未包括第二卷中的所有词汇,这就使得从分类入手进行主题标引时有些主题词未能得到选用。
(3)随着网络化程度的迅速提高,检索语言的兼容问题已经成了必须解决的问题。为达到兼容目的,在规范语言中必须逐步加入自然语言,并建立词间关系,将对主题词的规范控制从要求检索者用规范词语转向由数据库内部依据词间关系进行转换控制。电子化《词表》应加大入口词的范围,大量增加非正式主题词,建立完整的词间关系,以满足各种类型读者的检索需要。
(4)《词表》WEB数据库对于现有《词表》中由于各种原因而产生的错误和前后不一致的现象应认真检查修改。例如"J809(3)(5)"应为"J809(2)(3)(5)"、“平民教育G40.06”应为"G40-06"、“初级粒子Y次级宇宙线”,但在“主题词-分类表”中却找不到“次级宇宙线”一词。类似的问题给标引人员在标引时带来不便或无所适从。
(5)《词表》WEB数据库中的标识符号应保持与现有《词表》相同。例如组配符合“:”、组配后置部分“,”、“△”表示用自然语言描述、“+”表示是《资料法》的类号等等。统一的标识方便了已经熟悉现有《词表》的使用者。但为了方便标引人员检索,可将现有《词表》中用作表示某个辅助表的 《《中国分类主题词表》WEB数据库建设》
本文链接地址:http://www.oyaya.net/fanwen/view/63951.html
【摘 要 题】信息化与网络化建设
【关 键 词】中国分类主题词表/WEB数据库/ASP/SQL &nbs
1994年正式出版发行的《中国分类主题词表》(以下简称《词表》)是在《中国图书馆图书分类法》第3版(含《中国图书资料法》第3版)和《汉语主题词表》基础上编制的大型分类法,是一部集分类、主题为一体的综合性工具书。它从内容到形式、从结构到语义等方面,实现了分类语言与主题语言、先组语言与后组语言的相互兼容。该表实现了经一次主题分析,通过标引数据的转换,同时完成分类标引和主题标引,因而降低了标引难度,提高了标引质量,节省了人力和物力;便于分类检索和主题检索以及有分类号、主题词和自然语言三者组成的混合检索,实现了分类检索和主题检索的互补,提高了检全率和检准率。
ASP技术可以简便易行地实现构建Web数据库的查询程序,它集简单与高效于一身,可以非常直观地开发出复杂的Web应用,基于ASP开发的《中国分类主题词表》Web数据库具有良好的交互式使用方式,将有助于它在中国各类图书馆、文献情报机构中普及使用,大大地提高图书分类的准确度与效率,对我国图书情报机构文献管理和图书情报服务的现代化具有深远意义。
1 《中国分类主题词表》电子化的必要性
我国分类主题一体化的发展趋势在很大程度上取决于《词表》的出版和使用。由于《词表》的广泛使用,推广了主题工作、提高了主题标引的质量,为文献标引工作提供了权威的标引依据。但是,随着科学技术的发展与社会的进步,面对先进的网络技术、计算机技术在图书馆广泛应用的前景,标引人员不仅要求《词表》能满足新学科、新技术、新主题文献标引的动态需要,还呼唤能实现各种文献信息的自动标引或智能标引,满足各种用户包括读者在内的文献信息检索需要,实现自动检索或智能检索。
实现自动标引的基础是用于标引的词表库。系统标引词表库是自动标引系统辅助标引人员寻找合适的分类标识、主题标识和标识间相互转换的依据。由于《词表》完成了分类法类目与主题词或主题词串的对应,使得文献分类标引和主题标引同步进行变得易于实现,因此《词表》为标引词库表的建立奠定了坚实的基础。
电子化的《词表》首先摆脱了计算机编目中的分类主题手工标引,充分利用Microsoft SQL Server为基础建立起来的大型数据库应用程序,系统界面友好、操作简便,计算、分析、检索功能非常强大,提高了标引质量,节省了人力。其次也解决了由于外在因素带来的使用上的不便,比如印刷版《词表》价格高,一般图书馆只买一部,至多两部,而中型以上的图书馆从事文献标引工作的人员不少于两人,《词表》作为必备的常用工具书,就明显不够用,尤其是在回溯建立馆藏文献数据库时,情况更为突出,严重影响了工作进度。又如《词表》体积大,作为标引人员随时都在翻阅的工具书,就显得十分笨重和不方便,不到一年就破损严重。以上种种原因表明,电子化的《词表》是十分必要的,也只有将《词表》电子化、网络化,才能充分发挥它所蕴藏的多种潜在功能。
2 《中国分类主题词表》WEB数据库建库软件
《中国分类主题词表》的数据量比较大,数据库有20多万条记录,要有相应快的响应速度,并且需要支持多人同时访问。SQL Server 2000能满足以上要求。以CⅡ800的计算机为例,检索21万条记录的数据库只需要6秒。
2.1 SQL Server 2000完全的Web支持
SQL Server 2000提供了以Web标准为基础的扩展数据库编程功能。丰富的XML和Internet标准支持允许使用内置的存储过程以XML格式轻松存储和检索数据。还可以使用XML更新程序容易地插入、更新和删除数据。SQL Server 2000具有强大的Web访问功能,使用HTTP可向数据库发送查询、对数据库中存储的文档执行全文搜索以及通过Web进行自然语言查询。
2.2 SQL Server 2000高度的可伸缩性和可靠性
使用SQL Server 2000可以获得非凡的可伸缩性和可靠性。通过向上伸缩和向外扩展的能力,SQL Server满足了苛刻的电子商务和企业应用程序要求。向上伸缩。SQL Server 2000利用了对称多处理器(SMP)系统。SQL Server Enterprise Edition最多可以使用32个处理器和64 GB RAM。向外扩展。向外扩展可以将数据库和数据负载分配给多台服务器。可用性。通过增强的故障转移群集、日志传送和新增的备份策略,SQL Server 2000达到了最大的可用性。
2.3 ASP技术的使用
ASP是Active Server Pages的简称,它是一种在微软公司的WEB服务器IIS(Internet Infomation Server)上开发交互网页的新技术。微软公司最初在IIS3.0版上使用它以取代CGI。随着Windows NT在WWW上的使用日益增多,ASP已经成为了开发动态网站、构筑Internet和Intranet应用的最佳选择。
如果你的计算机上装的是Windows NT 4.0,那么你可以通过安装NT的可选包WindowsNT Option Pack 4.0来安装IIS4.0,然后你就可以在IIS4.0里使用ASP了。如果你的操作系统是Windows 98,那么你可以在Win98光盘里找到一个ADD-ONS目录,下面的PWS目录里面有一个小型WWW服务器软件PWS(PersonalWeb Server),它也可以支持ASP。而Windows &nbs
p;2000 Server版或Advanced Server版,都已经自带IIS5.0。
3 《中国分类主题词表》WEB数据库建库重点
(1)《词表》WEB数据库除包含现有《词表》的全部内容,重点应以《中图法》第四版为基础,全面修订主题词及其与《中图法》四版类目的更新对应关系,对从三版到四版删改的分类号、类名、注释、对应的主题词及其参照关系进行修订,对新增类目和调整的类目编制对应主题词,对删改的叙词应建立参照关系或进行沿革注释。
(2)《词表》WEB数据库要重点修订现有《词表》中类目与主题词的对应关系,提高《词表》的分类主题一体化标引功能和检索功能,使《词表》无论从类号还是从主题词检索都可查全相应的主题词和类号。如第一卷中"J915"下没有“音响模拟”一词,类似情况说明现有《词表》第一卷并未包括第二卷中的所有词汇,这就使得从分类入手进行主题标引时有些主题词未能得到选用。
(3)随着网络化程度的迅速提高,检索语言的兼容问题已经成了必须解决的问题。为达到兼容目的,在规范语言中必须逐步加入自然语言,并建立词间关系,将对主题词的规范控制从要求检索者用规范词语转向由数据库内部依据词间关系进行转换控制。电子化《词表》应加大入口词的范围,大量增加非正式主题词,建立完整的词间关系,以满足各种类型读者的检索需要。
(4)《词表》WEB数据库对于现有《词表》中由于各种原因而产生的错误和前后不一致的现象应认真检查修改。例如"J809(3)(5)"应为"J809(2)(3)(5)"、“平民教育G40.06”应为"G40-06"、“初级粒子Y次级宇宙线”,但在“主题词-分类表”中却找不到“次级宇宙线”一词。类似的问题给标引人员在标引时带来不便或无所适从。
(5)《词表》WEB数据库中的标识符号应保持与现有《词表》相同。例如组配符合“:”、组配后置部分“,”、“△”表示用自然语言描述、“+”表示是《资料法》的类号等等。统一的标识方便了已经熟悉现有《词表》的使用者。但为了方便标引人员检索,可将现有《词表》中用作表示某个辅助表的 《《中国分类主题词表》WEB数据库建设》