古籍的数字化,从专业出版社到技术类公司,都在探索这一出版方向。由于没有成熟的盈利模式,加上投入、产出、版权、人才等问题,亦使得古籍的数字产品的发展稍显慢热。用一位古籍类出版社社长的话来说,“古籍的数字化在当前还是看不到市场前景的产业”。
面对古籍的数字化,许多人首先想到的是“技术”问题。譬如汉字的输入,这是古籍数字化首先要面临的问题。由于古籍中含有大量生僻字、异体字、通假字以手写字和避讳字,而已公布的汉字通用字符集均不能完全处理古籍中汉字的复杂性,因此,解决汉字字符缺失问题就成为古籍数字化的首要任务。又如在标准的确立上,建立全国统一的古籍书目数据库很有必要。如果没有规范的机读目录格式,数据库就无法进行交换,难以实现资源共享。此外,还必须对古籍原本进行鉴别和统一著录,执行统一的分类表和分类原则,否则就会出现书目数据不准确,造成不同的书被著录成一种书,或者是一种书被著录为多种书的状况,给读者的使用和研究带来极大不便。此外,键盘输入与光学字符识别(OCR)扫描输入也存在诸如图像质量不高、扫描速度低、单位成本高、识别率低等技术难点。类似的“技术”问题还有很多。
另一方面,需要指出的是,当前的不少古籍数字产品,往往致力于量的积累,而忽视了质的准则。大多数的古籍类出版社都在将古籍整理作为自身经营的重点之一,它们对古籍进行审定、校勘、标点、分段、注释、今译等专门工作。包括影印和索引工作,也属于古籍整理的范围。影印工作要求考证版本、检查漫漶,配补描修等。索引工作要求编制人名、地名、书名和各种语词、术语等的索引,以便于对古籍的检索。此类工作对于古籍的阅读和使用意义重大,甚至内容质量超过前代。
然而,当前的古籍数字产品却鲜有收录这种经过古籍整理后的内容,还是原始、粗糙的内容为主,或者是未经学者的认真整理,借用了已经整理的版本而又乱加删改、买椟还珠,造成了许多混乱。古籍整理专家程毅中就曾撰文谈到,“数字化的古籍应该是经过认真整理的古籍,需要运用目录、版本、校勘和文字、音韵、历史文献等各方面知识进行点校,成为现有最好或较好的版本。否则,将会造成谬种流传,劣本取代善本”。以当前的现状来看,古籍的研究者可以借助古籍数字产品检索,却无法轻易引用,必须再次核对整理本,最终的引用也要以整理本并依据为准方可。古籍数字产品的内容质量不过关,或者说不适应使用需求,致使其地位显得很是尴尬。从这一点又引发出另一个常被人忽视的盲点——古籍整理作品的著作权。尽管古籍进入公共领域,但是在古籍整理、点校出版中,具体组织实施项目的出版社需要投入巨大的人力、物力和时间成本,如果由于出版社的整理点校行为而产生了新的作品,出版社理应对古籍的整理点校版享有著作权。因此,古籍数字产品的版权显然应当与古籍整理作品相互统一。
围绕古籍数字产品的探索,显然是离不开技术的支持,但忽略已有的古籍整理作品,盲目的发力作“无用功”,对古籍的数字化发展将是极其重大的损失。中华书局在这一方面就率先做出探索,其数字产品“中华经典古籍库”,精选近300种中国文化基本典籍,包括十二五史、通鉴系列、诸子集成、史料笔记丛刊等诸多经典系列,内容就是经过高水平的古籍整理,质量与中华版纸质版本一样,可供征引使用。将古籍整理作品的利用在古籍的数字化之中,类似的经验之谈或许应该值得更多有识之士的注意。

