我看古籍电子化

风清扬斈 14年前 (2006-03-29) 网络资料 5370 0
我看古籍电子化 
8848·易维·笨狸(http:∥www.nease.net/~banly) 
  早在十多年前,深圳大学在其校长兼党委书记罗徵启的领导下就成立了一个“中国文史信息中心”,力求建设一个中国文史信息大型数据库,可是当时在国标字库的限制下没有办法完成,单是输入《明史》就缺字2400多个。刚好罗徵启获悉有一个叫黄贤的哈佛大学博士,已经设计有一套“全汉字操作系统”和一个《中华大典》的字库方案,该方案拟收集10万字的字库,可以解决几乎全部的汉字电子化。于是罗徵启起用黄贤在1988年筹办成立了“深圳《中华大典》基金会”,到1995年,他们的全汉字操作系统已经完成了70%的工作量,汉字字库也收集了75000多字。但是,以后我却再也没有看到有关的报道了,倒是同年由微软推出的Windows95中文版中使用了GBK字库。 
    GBK字库收录了国家标准GB231280的全部6763个汉字以及国家标准GB13000.1中的其他CJK汉字共计20902个汉字。可是据《中华字海》统计,现存书中所用的汉字已达86883个,由此可见,《中华大典》的75000字比GBK更接近“够用”的标准。 
  众所周知,古籍电子化最困难的地方就在于一个汉字的输入,目前看《新语丝》文库中所收入的古籍,很多地方因为系统兼容的考虑采用偏旁相加的方法来写,看起来非常别扭,虽然是无可奈何的事情。如果遇到没有办法用偏旁相加的方法来输入的时候,表达起来更是麻烦。 
  目前,我们很多汉字系统的研制者对微软动辄改变系统调用的方法非常不满,因为那会使很多基于Windows的汉字外挂平台必须跟着修改。于是除了在海外,很多汉字外挂平台都已经失去了市场,在中文版的Windows系统里面成为一种总是导致不兼容当机的祸首和累赘的东西。 
  其实,GB2312从来就不是依靠微软才确定下来的标准,作为一个成功的标准推行先例,为什么不进一步推行诸如10万汉字的字库和系统作为标准呢?为什么不能让微软来依照这个标准而是一定要去依靠微软那种没个准的标准呢?我不知道《中华大典》这样的东西为什么竟然到了现在默默无闻的地步,此前我在如YAHOO之类的几个搜索引擎中搜索《中华大典》,却一则信息也没有找到,看来这个计划不是流产了就是失去了和业界的联系。 
  我不知道这是谁的悲哀,只知道要在网络上看完整可读的古籍还需要很长的时间。而要拥有一本像《金山词霸》一样的电子《辞海》,也是一个比较奢侈的幻想了。 
  古籍的电子化另外一个问题就是输入校对,我觉得,如果有了一个就算在图书管理业界也可以通行的字库标准以后,这个校对问题可以迎刃而解。看《计算机世界》的一个新闻:“5月12日至14日,国家图书馆、上海图书馆、北京大学图书馆、中国科学院图书馆、南京图书馆、浙江图书馆、辽宁省图书馆、首都图书馆、山东省图书馆等部分国内中文古籍收藏大馆有关人士在国家图书馆聚会,研讨了中文古籍的计算机编目、典藏阅览、古籍保护和计算机管理等中文古籍面临的急迫问题。”我有点担心他们的会议结果,他们这些图书馆面临的最急迫的古籍问题应该是“版本”而不是其他。正是版本问题困扰着古籍校对的工作。当然,在忽略版本困扰的时候,校对的问题最经济的方法可以采用多文本交互的方法。就是说,对同一个版本的书籍,可以采用两人或者以上来同时输入一个文本。第一阶段的校对就是比较两个人的输入,一般来说,两个人同时在同一个地方犯错误的机会是比较少的,这样可以避免一些低级的输入错误,然后,再把核对后的文本交由两个不同的专业人士进行校对,最后再对比校对结果。我想,这样的工作只要能够认真地进行,古籍电子化的工作可以很快地高质量完成。 
  没有任何技术上的帮助,想在目前的“标准”中讨论任何古籍电子化的问题,我想都是徒劳的,目前最急迫的问题就是寻找最佳技术成果,由国家宣布新的通用标准,规定国内汉字系统的新的基本要求,然后再来研究古籍的电子化问题才可以事半功倍,其成果也不至于因为标准不同而导致了无价值的重复劳动。 

相关推荐

  • 网友评论

    • (*)

    最新评论