2018年10月26日上午,北京师范大学周晓文教授应邀到郑州大学汉字文明研究中心讲学。周教授的报告题目为《计算机辅助汉字整理与研究》,这是“跨文化汉字研究高端讲坛”开办以来的第十七场学术报告。报告由中心主任李运富教授主持,文学院及汉字文明研究中心的100余名师生参加。
周晓文教授现任北京师范大学文学院教授,博士生导师。兼任教育部重点研究基地民俗典籍文字研究中心副主任、教育部与北师大共建中国文字整理与规范研究中心副主任;国家社科基金重大项目“基于资料库的古籍版本电脑辅助校勘系统研究”首席专家,新闻出版总署重大科技工程项目——“中华字库”工程“版刻楷体字书文字整理”技术负责人。周教授主要研究领域为汉字学、中文信息处理,代表作有《汉字构形属性历时演变的量化研究》《说文小篆电脑字库及输入法》《小学文献序跋汇编(十卷本)》《“文字国”多媒体学习软件》《甲骨文字库》等。
此次讲座,周晓文教授首先简要介绍了汉字数量、计算编码与汉字整理、计算机编码发展现状等背景知识。其次,周教授对“中华字库”工程的目标和技术难点进行了说明,并以第11包“版刻楷体字书文字整理”项目为例,阐释了“中国历代字书的界定和发展”“古代字书版本选取”“古代字书分类、数量及分布”“字书整理的方法与流程”等内容。其中,侧重讲述了“字书整理的方法与流程”的具体操作过程。比如说,在资源调查和获取方面,不仅要制定《字书文献著录细则》、建设书目数据库及管理平台,还要确定版本选取的原则;在图像扫描加工方面,要经过拆分、拼接、校正、裁剪、统一格式和名称、质检等多道工序;在电子文本采集方面,利用OCR(Optical Character Recognition)自动识别,辅助人工录入,将字书全文制成电子文本,为全文检索及建立数据库提供基础;在属性采集数据库加工方面,以页面属性分析为前提、计算机辅助自动生成数据库策略为方法,通过自动拆分属性入库,辅助人工编辑,完成数据库建设。周教授认为,字书数字资源的重要价值主要体现在资料性挖掘,如序跋、附录、版本集成等;字头字形,如收字、字形差异、首见字书、断代研究等;字音属性,如音变、音转、演变等;字义属性,如音未详、义未详、音义未详等疑难字的考释;字际关系,如关系系联,同某、亦作某等;版本学,如校勘学领域的内容挖掘等;其它如避讳、简繁、引书等。最后,周教授对现在已有的一些计算机辅助专业研究平台进行了讲解,如字料库管理平台、异体字整理平台、字头比对平台、计算机辅助古籍版本校勘系统、计算机辅助篆文识别,等等;同时还现场演示了如何利用计算机辅助古籍版本校勘。
李运富教授总结指出,周老师的报告让我们“不明觉厉”。“中华字库”是一个浩大的工程,单靠人工来完成识别、录入、校勘等工作是不现实的,如果通过计算机做一些机械的、重复性的工作,不仅可以大大减轻人工的负担,而且还能集中人力到学术研究上。利用计算机辅助进行学术研究虽是大势所趋,但这其中还会遇到专业研究和工程技术难以磨合的问题。不过周老师既懂专业知识,又会电脑技术,可将人工干预和计算机辅助有效地结合,形成人机互动,并在此基础上取得了多方面的成果,这是值得我们羡慕的。