Rss & SiteMap
炒邮网论坛 http://bbs.cjiyou.net/
“我要拿去给老师看,让她知道是爸爸做的。”4月23日,社科文献出版社发布由瀚堂图书数据库发明人王宏源新勘的《康熙字典》修订版及数据库,王宏源读一年级的小女儿准备拿着征订手册去学校“显摆”一下。
《康熙字典》为清政府召集众多学者集体编纂而成,问世近300年间,只有学者王引之在道光十一年(1831年)奉旨校勘过。
44岁的王宏源利用Unicode国际标准中的57557个字符(Unicode也称为统一码,是一种ISO国际标准,即计算机上使用的字符编码),首次对《康熙字典》1.3万多个字头进行了3万多项的增补和修订,并针对《康熙字典》原有的47043个字头,逐字进行了异体字的字际关联工作。
新勘《康熙字典》比我国420人的编辑团队历时15年编修的收字54678字的《汉语大字典》多收录约3000个汉字,并且每个汉字都有国际编码和说明。如此巨大的工程,投资规模如何?社科文献出版社社长谢寿光和北京时代瀚堂科技有限公司总经理王宏源说:“我们没要国家一分钱。”
王宏源的“野心”很大:“尽可能把中国所有文献古籍整合到一个数据库,把字典收拾妥当才能做接下来的活儿”,“过去修书都是翰林,我是44岁开始修,还能干20多年。”
数字时代的出版业
王宏源在清华大学物理系完成物理学学士和工程物理学硕士学业,曾留学欧洲。2002年夏天经人介绍,认识了社科文献出版社谢寿光社长。正是那一年,谢寿光参加东京书展时发现“各种数字产品和纸质图书已平分秋色”;而且,“近年的法兰克福书展上,数字展品的比例也在不断提高,数字版权交易渐成主角。”
厦门大学哲学系77级毕业生谢寿光对大学时写论文抄卡片的繁琐记忆犹新,这位后来改行到社会学的出版人注意到,“国外许多著名的图书馆以及像亚马逊网上书店差不多已把世界几千年积累的纸质读物都转换成数据库了”,“数字时代的出版社已不仅仅是纸质图书出版商,而是内容提供商,是内容集成商。”
经过半年多的反复讨论,谢寿光向王宏源订制了一套叫“社科文献资源库”(SSDB)的技术平台,该社“从版式到最后出胶片之前那一套纸质的东西”,全都可以经高速扫描仪扫描而自动生成为全球通用的PDF格式,进而形成数据库产品。
2003年,通过王宏源的技术支持,谢寿光率先把该社“中国与世界经济社会发展”系列“皮书”(起始于1997年)进行数字化。配光盘销售的《经济蓝皮书》,“一张盘可以增加3.5元的赢利”,“更重要的是,终端客户要用真实身份注册以后才能得到序列号使用光盘,这样出版社留下了最珍贵的用户资料”。而《康熙字典》修订版的问世,不过是谢寿光和王宏源继SSDB皮书数据库(中国与世界经济社会发展数据库)和SSDB列国志数据库后最新的合作成果。
规模超过50个四库全书
语言文字研究界流传着一个笑话:上世纪80年代初,一个埃及代表团访华时问中国有多少古籍,文化部一位官员语塞,说“浩如烟海”。对方嘲笑说你们连10亿人口都查得出来怎么查不出古籍数目。其后,中国成立了全国高等院校古籍整理研究工作委员会,但迄今仍未调查出中国古籍的准确数目。首都师范大学文学院教授冯蒸认为,《康熙字典》修订版和瀚堂图书数据库技术有望加速古籍整理的进程。
冯蒸是《康熙字典》修订版的审音人,过去他研究的古籍“也可以在网上看到,但是是扫描上去的,必须转变格式才能打印出文字版”,“以前下载的全是黑圈儿,这次不用造字了。”中国古籍包括经史子集四大部分,“经”又包括易、书、诗、礼、小学等10类,“小学是经部中最专门和最难的”,而王宏源“有上百部小学类古书的数据库,比如《说文解字》、《尔雅》、《广韵》、《集韵》等,别人做不了他这个工作。”
“让普通人像用《现代汉语大词典》那样用上《康熙字典》”,是谢寿光的梦想。支撑他的乐观预期的是这个修订版的几大优点:将原版竖排改为横排;对原有的反切音进行了现代汉语注音;加入标点,解决现代人不懂句读的阅读障碍;输入简体字,就能准确检索到该字的古字,并且对应出现原书的影印;原书影像采用DJVU或PDF压缩格式,可逐页上下浏览;全部7万字符无造字。
部分参与了《康熙字典》修订版校对的瀚堂公司员工张亚静也说,“以前很少接触这些繁体字和生僻字,现在不像以前见了繁体字就发怵。”王宏源要求公司的研发人员:必须让不懂电脑的人也能够使用《康熙字典》的数据库光盘。
王宏源目前已主持完成数字化的古代和现代字书超过100种,传世典籍完成数字化存真性、资料性整理的图书有1500种,共3万卷典籍,约600万个条目,近10亿汉字。规划中,王宏源要整理的典籍约25万种,对照图书影像两亿页,500亿文字,规模超过50个四库全书,将形成约10亿个条目,约占人类典籍信息的20%。
而在谢寿光看来,《康熙字典》修订版及数据库至少还可以应用于户籍管理和机场、股票或期货交易市场的管理。为换发第二代居民身份证,公安部2006年升级的GB13000新字库含汉字增至32252 个,仍远不及《康熙字典》修订版57557字的收字量,谢寿光希望公安部能采用《康熙字典》修订版及数据库,他和冯蒸都认为“取名是公民的基本权利”。
商业模式比什么都重要
在“《康熙字典》修订版发布暨古籍数字化研讨会”上,与会者大都肯定了《康熙字典》修订版的价值,也对其赢利模式格外关注。
四通汉字打字机发明人王缉志建议,“和微软、百度、Google等合作”,只要用户通过这些平台有偿使用了《康熙字典》修订版及数据库,社科文献出版社就可从中分成。“现在的中学教师用不用《康熙字典》?更需要的是社区图书馆和个人,应该由国家埋单”,清华大学教授李楯建议,出版社主动把《康熙字典》修订版寄往全球收藏中文书籍最多的前10家图书馆。
传统文化的传播和网络的结合是大势所趋,但“网上已有资料的学术性差、不够规范”,中华书局副总编辑顾青更关注《康熙字典》修订的一些细节问题。中华书局隶属的中国出版集团公司近年也在推动数字化工程,该局承担的国家项目“古籍数字资源库”已经实施了七八年。在他看来,绝大多数出版社目前都面临着转制成文化企业的生存压力,更需要国家在古籍数字化方面加大投入。
谢寿光不像李楯那样忧虑《康熙字典》修订版及数据库的海外销售,因为该社有90%的图书被海外客户采购过。他认为,国家汉办下属的全球各地的孔子学院都是《康熙字典》修订版及数据库的目标客户,而且它还适合作为国礼赠送给参加北京奥运的各国友人。
2005年,谢寿光在《说文解字》现代版上投入近50万元,3年来累计销售1万套,“没任何赢利”;而这次《康熙字典》修订版投入了130多万元,“还不包括营销成本”,但“皮书”系列的成功让他信心满怀。