古籍蕴含了广袤无垠的知识和智慧。它在一定程度上代表着一个时代曾经到达的智慧高度,也是中华文明能够绵延数千载而不中断的重要原因。但要把他们古为今用,就必须进行古籍整理,这是一个非常艰辛和繁杂的过程,它有着许多规范的工序和方法。
一般古籍整理的工序和方法有:选择底本、影印、校勘、标点、注释、索引、序跋和附录等,经过这些工序才能保证做好完整版的古籍整理本。目前由中华书局等30余家出版社组成的全国古籍出版社联合会(简称古联体),是我国古籍整理出版的主力军。另外,部分中央和地方综合出版社、教育出版社、高校出版社,也承担了部分古籍的整理出版工作,可以说,近年来我国古籍整理出版工作成绩显著,精品力作不断涌现,总体出版能力增强。
一直以来,为积极应对新形势对古籍整理出版工作提出的新要求,各出版社在不断丰富和完善古籍数字化产品和服务。数字化是古籍再生性保护的重要手段,古籍数字化属于古籍整理的范畴,代表着古籍整理的未来方向。虽说技术水平、资金投入、赢利模式、版权保护等方面的困难限制了不少出版业对古籍资源进行数字化的商业开掘,但古籍数字化仍有不少先行者。这里所说的“古籍数字化”是指利用现代信息技术对古籍文献进行加工处理,使其转化为电子数据形式,通过光盘、网络等介质保存和传播。
目前已经有一些大规模、有代表性的古籍数据库陆续投入使用,国家财政也对不少项目进行资助补贴。但存在的问题仍比较突出,集中有以下四点。第一,缺乏统一规划、内容重复建设严重。比如一套《四库全书》,先后有三家制作单位对其进行过数字化,这种重复在人力和财力上都是一种浪费,它提高了开发成本,相应减少了对其他可开发项目的投入。其实这样的重复建设不仅体现在古籍数字化上,不少古籍出版物也存在此类现象,被用户诟病。
第二,知识产权解决困难。经过专家整理的古籍是具有版权的,一部分单位为了规避版权风险,只能使用版权已经进入公共领域的抄本刻本古籍,没有任何专家校勘、标点、注释的内容,既不便于使用,也存在许多错误,很不严谨。还有一部分单位铤而走险,侵犯版权,这些都会给使用单位带来法律风险。
第三,古籍疑难用字的解决不理想。业内使用的大多是国际标准的unicode字符集,但目前该字符集仅涵盖7万多汉字,这在古籍的数字化中是非常不够用的,所有这之外的字都需要靠造字解决。有些公司为了简化手续,仅仅是对这些集外字以贴图的方式处理,虽然保持了古籍用字的原貌,但失去了检索功能。古籍中还有大量异体字、通假字、避讳字,这些都给检索带来了很大的困难。有些系统虽然附带了繁简异体字的关联检索,但是脱漏甚多。可见如果没有专门的编辑或者研究力量支撑,数字化古籍用字问题很难得到解决。
第四,阅读支撑体系不足,对现在的读者而言,古籍无疑是非常难读的。不仅是字词难于理解,还有很多专业知识都给读者造成阅读障碍。比如古代的纪年方式与公元纪年的对照,古代人名的不同表述方式等等,这些都是今人在阅读古籍时所必备的知识。但是目前的古籍数字化系统通常只能给读者提供一个简单的联机字典和公元纪年对照表,远远不能满足读者的需求。
此外,目前古籍数字化多为封闭式建设模式,缺乏统一标准、阻碍资源共享。数据库在著录格式、数据格式、文字编码等方面均存在差异,且互不开放,无法在统一平台集成使用和共享。
古籍出版不易,古籍数字化更不易。规范化建设能推动古籍资源库在数据采集、加工等各环节走上科学化、专业化的发展轨道,推动共建共享,还能促进其快速、经济和可持续发展。因此,我们不仅要对古籍整理出版进行规范,古籍数字化更应同样对待。