12:业者论坛
上一版3   4下一版  
 
标题导航
 
3 上一篇   下一篇 4  
引用 [1]王 蕾. 简论出版行业数据库制作 [N].中国出版传媒商报,2025-12-19(12). 放大 缩小 默认   
简论出版行业数据库制作
——以考古类图书及相关资料为例

  ■王  蕾

  当前社会是一个大数据的社会,每天我们都被大量的信息所充斥,其中不仅有有效信息,也有相当数量的无效信息。大数据本质是‌数据驱动决策的新范式‌,其演进始终围绕“‌如何从海量噪声中提取高价值信息‌”展开。如何在大数据的背景下筛选我们所需要的有效信息,成为一个现实问题。

  在如今的出版行业,仅就考古专业来说,每年至少有数百种图书出版,其中包括考古报告、研究性专著、图录、论文集、教材、科普性图书,等等。如果算上每年发表的发掘简报、研究性文章等,数量就更加丰富。考古专业的图书和研究文章等种类繁多,数量较大,涵盖面极广,信息量也较为多样。

  据悉,中国文史出版社组织策划了大型图书项目《中国考古发掘报告提要》,并于2024年出版。该图书收录了自1928年至2015年在我国正式出版的考古报告和考古专业核心期刊登载的考古简报,共13245种。该项目共10卷16册,外加1册便于读者查阅的索引,是我国几代考古工作者辛勤劳动的结晶,是我们认识考古学术成果的文字凭证。该套书未记载2015年之后的数据,但从每年出版的期刊、报告、专著、文集等的数量看,10年出版的数量也应该在上千种。总体来看,目前出版的考古类图书、期刊等的数量有上万种了。

  如此庞大的资料群,读者寻找使用不方便,所以建立一个涵盖大量资料的数据库十分必要。出版社需要思考的是如何建立这样的一个资料库。

  以一些古籍方面的数据库为例,搜索关键词的时候可以搜索到所有已经上传内容中涉及搜索词的条目,部分近似的词组也可以一并显示在搜索条目中,使用者可以进行挑选使用。如果需要更精确的条目,则可以再进行高级搜索,挑选更多关键词、书目,再从中挑选更为合适的内容或者读者需要的文件。

  上述古籍数据库可以略作一些参考,图书的数据库亦应该如此。比如,我们可以按照不同的主题进行分类,比如器类研究,其下又可分为铜器、玉器、瓷器;比如墓葬研究,其下可以按照朝代划分,也可以按照不同形制的墓葬分类;再比如壁画研究,可以按照墓葬壁画、石窟寺壁画等分类;等等。首先分出大类,在之后的搜索中会显示出相关主题的不同研究性质的文章或者是图书。当然,在搜索结果中,可能会包含有研究性文章、专著、报告中都涉及一个种类的研究成果,形式较为多样,所以应该在之下再设置子选项,用来筛选自己所需要的是专著、文章,还是报告;也可以设置按照出版时间等其他条件进行筛选。此外,也需要在页面的一侧有一个菜单栏,包含出版时间、作者、类型等条目,读者亦可以从这里选择自己所需要的材料。

  再比如,我们可以针对某一个大的主题进行分类,比如当前比较热的大遗址保护,其下可以按照古遗址、古墓葬、石窟寺等大类先进行分类,其下再按照研究、保护、资料等进行进一步的分类,之下再按照不同的标签进行细分,之后的筛选和上述步骤一致。

  再比如,我们还可以按照一个项目工程进行分类,如三峡工程的报告,目前已经出版的三峡相关报告和其他的相关研究成果都列在一个条目之下,统称为三峡工程相关研究成果,其下包含数条不同类型的研究成果,读者可以根据出版时间、作者、选择文章或报告的类型等进行筛选。

  上述几种不同的分类方法,看起来不难,实则是一个十分烦琐且细致的工作,需要大量的数据分析,并且要对图书内容比较熟悉,或者说需要大概浏览图书目录,大致掌握每种书的主要内容。这样,在对图书进行分类的过程中才能更好地对每种书选择不同的标签,比如一本报告,既有石器、玉器、铜器等不同的器类,也有房址、墓葬、灰坑、水井等不同的遗迹点,包含的内容十分庞杂,那么在对这本书进行贴标签的时候,就需要尽量全部关联这本书所涉及的所有标签,这样才能在后续的数据库建设过程中给定合适的搜索关键词,恰当地被读者所选择。

  目前,就考古专业图书来说,全国有多家出版社都在出版相关图书,对一家单位来说,目前能做到的就是先就本出版单位已经出版的图书进行一些数据库的制作。当然了,在这个过程中不仅需要出版行业的努力,也需要作者方面的帮助。目前存在一些情况,比如出版社和作者方面签约的图书出版合同约定,图书的电子版不可以录入在网站上,这也是对数据库建立和使用的一些阻碍;再如签约合同是有合同期限的,合同到期之后,后续的工作该如何开展,这也是一个问题。未来在这方面,需要和签约方商谈,尽量达成一个双方都比较满意的结果。

  此外,我们还需要考虑一些问题,比如数据库是否应该具有一定的开放性,比如读者在寻找一本书的时候发现书中的内容涵盖了相关的内容,但是对于该书的分类并没有相关的标签显示,或者是读者发现有些书的标签添加有误,这个时候是否可以让读者进行登录并且修改、增加或者减少该书的标签,后台审核通过后进行网站内容的更正,这件事情是否可行也值得斟酌。

  总体来说,建立资料库是一个长期的过程,不仅需要在现在建好相应的网站或者APP,还需要在后期不断进行维护和补充资料。鉴于现在的人工智能技术已经较为成熟,未来是否可以考虑将数据库的建设和人工智能技术相结合,进行一些更为精细的分类和操作,仍然需要一些时间来验证。但目前,我们应该着眼于当下,先建立一个基本的数据库,之后逐步发展和完善,静待时间检验。

  (作者单位:科学出版社)

3 上一篇   下一篇 4  
   第01版:一版要闻
   第02版:集团产经
   第03版:综合
   第04版:优案推介
   第05版:广告
   第06版:分销新视野
   第07版:分销新视野
   第08版:分销新视野
   第09版:分销新视野
   第10版:年终盘点/细分市场
   第11版:年终盘点/细分市场
   第12版:业者论坛
   第13版:年终盘点/细分市场
   第14版:年终盘点/细分市场
   第15版:世界出版
   第16版:作家访谈
   第17版:成长教育周报
   第18版:成长教育 研学实践
   第19版:成长教育 研学实践
   第20版:成长教育 研学实践
   第21版:中缝
   第22版:中缝
构筑儿童教育戏剧新生态
简论出版行业数据库制作
《共产党人的初心故事》讲述理想信念与使命担当
《苹果学》正式出版发行
《忠诚 干净 担当》: 新时代干部队伍建设的重要辅导读物
中国出版传媒商报业者论坛12简论出版行业数据库制作 2025-12-19 2 2025年12月19日 星期五