关键词 知识服务 科技图书 元数据
○张冬晔
信息化时代,阅读逐渐呈现多元化、立体化发展。特别是在科技图书领域,人们需要通过不停地学习,储备爆炸式增长的知识,而在方式上人们一方面阅读纸质或电子版图书,成体系地了解相应领域的最新科研成果,另一方面通过网络碎片化阅读,随时随地进行知识储备。两种主流的阅读方式各有优缺点,读者体验并不良好。建设知识服务平台的首要目的是方便读者阅读;另一个目的是能够使出版的图书作品实现电子化。为此国防工业出版社近两年开始筹备建设知识服务平台,而其建设的第一个系统即为雷达与探测知识服务平台。
知识服务平台的建设思路。科技类出版社经过多年的积累形成了海量的图书作品,相对于其他单位,特别是互联网公司,出版社在阅读内容方面拥有巨大的优势。如何利用这种优势,成为知识服务平台成功完成建设的关键。
建设知识服务平台本质上是解决如何让读者拥有更良好的阅读体验,变得更有效率的问题。因此知识服务平台的核心功能定位也需要针对读者展开。平台必须提供相应的图书搜索功能,不仅要通过关键字搜索到相关的章节目录,还要搜索到具体内容。相较于互联网上碎片化的文章内容,知识服务平台能够提供体系化的知识内容。
科技发展日新月异,现代的知识体系已变的十分庞杂,不同学科之间也交叉频繁,一次性建设一个科技类的知识服务平台,首先耗费人力物力财力巨大,其次建设知识服务平台目前也属于探索性发展阶段,摊子铺得太大,一旦发现不符合读者的使用习惯,造成返工,返工量也是巨大的。因此要先探索展开专业领域知识服务平台的建设作为试点。这个领域必须满足以下要求:必须为我国重点发展的技术领域;该领域在我国已经取得了一定成就,部分技术水平甚至领先于世界发达国家;该领域的技术应用范围广泛。针对这些要求,又经过了大量的调研,同时结合国防工业出版社已有的资源,最终决定以雷达与探测为实验领域,开发雷达与探测知识服务平台。
知识服务平台的建设方法。国防工业出版社近10年来出版的与雷达探测有关的教材专著超过了200种,最终从近5年的图书作品中,挑选了100种作为基础数据。
为了方便读者搜索图书中的内容,第一步需要将图书完全数字化。为此将这100种图书的PDF文件全部转为e-pub文件。e-pub文件具有准确度高、错误率极低、可塑性强、与html格式结合紧密等特点。
图书电子化后需要由专业技术人员筛选所有图书的核心词汇,国防工业出版社聘请了清华大学、北京理工大学等在雷达与探测领域的专家负责核心词汇的提取。
这些核心词汇经过再加工,形成所谓的“元数据”。元数据不仅包括词汇本身,还包括许多属性,不同类别的词有不同类别的属性,比如一个系统类名词,需要标识其出处、定义等内容;而装备类名词则可能需要其研制的型号等信息;当然最主要的是需要明确词间关系。在制作图书元数据之前,一定要制定明确的规则,将不同性质的数据严格分类,制定出各类核心词汇所要提取的具体信息,明确词与词之间关系的类别。
经过专家的数据提取工作,从100种图书中共提取第一批核心及相关词汇8000余个,创建词间关系上万个,形成了庞大的知识体系网。
元数据提取后,相当于把图书完全打碎,但只有这些碎片化的词汇是无法让读者正常阅读的,毕竟核心词汇的相关知识还是在图书中才能体现。因此需要将提取的元数据再标引回图书,使知识更系统化。当然这种系统化和单册图书的系统化概念完全不同,是将所有书籍与核心词汇相关的部分全部列出,方便读者选取阅读内容。
整理好底层数据后即可开始前台界面的设计制作,雷达与探测知识服务平台采取了近年比较流行的B/S架构制作。当然为提高用户的阅读体验,前台不仅仅只简单提供给读者搜索功能,还包括许多附加的诸如知识拓展、知识关联,甚至读者间相互切磋留言的功能。
对知识服务平台未来建设的展望。雷达与探测知识服务平台已建设到关键阶段,还有许多工作要做。首先是完善数据,已制作的数据中还有许多瑕疵,还有部分的孤立词汇,需进一步加工整理。另外,知识服务平台的建设也不仅雷达与探测这一个方向,未来还有许多知识体系需要拓展;同时各种专业知识服务平台的内容也需要拓展,目前的知识体系只包括国防工业出版社出版的图书,还可以加入其他出版社的图书以及期刊、论文、网络上的重要文献等。