首页 >> 新闻公告 >> 新闻信息 >> 正文

“古籍智能信息处理”系列研讨会第六讲回顾

信息来源: 数字人文研究中心     发布时间:2022-07-21     浏览量:

2022年7月16日下午两点,“古籍智能信息处理”系列专题研讨会第六讲在腾讯会议举行。此次研讨会由北京大学数字人文研究中心、中国古籍保护协会古籍智能开发与利用专委会主办,北京大学中国古文献研究中心、南京师范大学文学院联合主办,北京大学-字节跳动数字人文开放实验室、北京大学人工智能研究院承办,会议由北京大学中国语言文学系杨海峥教授、古联(北京)数字传媒科技有限公司朱翠萍副总经理主持。


本期研讨会的主题为“古籍数字化与汉字编码字符集”,北京师范大学文学院教授王立军先生、教育部语言文字应用研究所高级工程师王晓明女士、香港理工大学电子计算机系退休教授陆勤女士、北京北大方正电子有限公司副总裁兼字库业务板块总经理张建国先生和古联(北京)数字传媒科技有限公司副总经理朱翠萍女士先后发表了精彩的报告,随后朱翠萍女士主持了讨论和互动环节。本次研讨会通过腾讯会议、Bilibili、抖音和蔻享平台同步直播,吸引了来自国内外高校及相关研究领域的共计2000多名观众在线观看。


  开场致辞

杨海峥老师首先介绍了本次研讨会的主题,说明了古代汉字的字形复杂和数量庞大的特点,强调了古籍字库、字符集整理规范的重要性和基础作用。杨海峥老师介绍了参与本次研讨会报告的各位老师,随后五位专家分享了他们的主要工作和研究成果。


6C71B


专题报告


一、古籍印刷用字的整理与规范

王立军老师从汉字字形规范的必要性、汉字字形规范的历史两方面切入,介绍了古籍印刷字形的整理和规范,以及如何在编码中处理复杂字形等方面的问题。由于古人因义构形的造字规则,汉字中存在许多异体现象。汉字本身的特点,加上古籍字形标准不统一、新旧字形间的冲突、不同字库之间字形处理方式不一致等原因,造成了古籍字形现实应用的混乱状况,需要对这一现象进行规范。随后王老师从历史角度具体阐述了汉字规范的发展史。最后重点介绍了《古籍印刷通用字规范字形表》的相关内容,以及古籍印刷用字的字形认同原则、选取原则,这些对古籍印刷通用字收字和字形规范原则标准具有重要意义。




二、汉字编码与古籍数字化平台构建

王晓明老师从理论和实践两方面介绍了古籍数字化的相关工作,包括编码、编码字符集、择定字集和确定字型四个方面。古籍汉字在数字化方面首先需要解决编码问题,这是在计算机中存储和传输文字的基础。其次,王老师详细介绍了与汉字相关的不同编码字符集及其相互关系。目前,基于国际编码字符集的通用计算机平台以满足人们日常的信息交流为主,而古籍数字化需要构建一个专属平台,从而在计算机内实现古籍用字的输入和输出。接下来,王老师讲解了《四库全书》项目的平台构筑实践,指出应综合考量数字化对象的用字规模、字符集的收字及操作系统对字符集的实现情况,灵活选取适于目标古籍数字化的字符集。在确定字型方面,王老师具体介绍了CJK汉字字符集的认同规则,以及如何运用该规则确定古籍用字字型。




三、汉字编码和适于关联性汉字的编码方法

陆勤老师从字符编码基础切入,逐层深入地介绍了汉字编码和关联性汉字的编码方法。首先,陆老师阐述了汉字编码的难点和汉字编码认同的必要性。统一的认同规则能降低索引查找困难,减少认知不同引起的混乱。当前的汉字编码有许多优点,但同样存在局限性,包括缺乏内码和属性信息之间的关联、缺乏字与字之间的关联信息即异体字之间的关联等问题。特别在古籍数字化方面,字符集之间的关联尤为重要。随后,陆老师重点介绍了汉字关联编码技术——异体字序列表示法(IVS),这一方法通过构建基本字、异体字选择符之间的关联字库,能够解决异体字数量多的难点。在古籍汉字数字化方面,异体字序列表示法同样适用,并具有诸多优点,包括古籍的整理工作和需要编码汉字的整理工作具有一致性,编码速度快、灵活性高,适用于多种应用的开发等。



92A97

6DEDB

5789F

68253


四、方正电子在超大字库方面的探索和实践

张建国老师具体介绍了方正超大字库。方正超大字库产品收录了8万多汉字,具有多种字体。根据相关国家标准、国际标准,还在不断加以扩充。超大字库在行业应用中需要应对显示、输入、存储、交换和多环境多设备的适配等方面的问题;为此,方正电子建设了方正超大字库解决方案,包括显示方案、输入方案和出版方案。在古籍整理方面,还开发了古籍数据库应用、古籍采集加工管理平台等多个平台,方便各类用户使用。中华精品字库工程精选了100位中国历代书法家的代表作品,开发成为电脑字库,累计推出了35款精品书法字库。


81196

43809

5927C

37F81



五、基于古籍出版及数字化的字符集整理实践

朱翠萍老师的报告包括古籍出版面对的字符集问题、古联公司字符集整理实践两方面内容。首先,朱老师介绍了古籍出版面临的字符类型多样、异体关系复杂、终端需求不同、规范标准交错等问题。针对上述问题,古联公司开发了编校系统以排查错字误字,繁简转换平台以实现繁体字和简体字之间的精准转换。在实践方面,古联公司进行了字符集整理与规范工作,建设了多种文字类资源库及平台,如文字属性整理平台、金文词典编纂平台、殷墟甲骨文数据库、小学文献数据库等。最后,朱老师指出,通过构建上述平台和数据库,期望形成集字形、文献、字库、输入法、协同编纂、成果发布为一体的“历代汉字与古文献综合应用与研究平台”。


7691D

3D114

323B0

65620



互动问答


报告结束后,五位主讲人和与谈人就研讨会内容进行了交流探讨,回答了观众们提出的问题。王立军老师回答了关于“月肉”“柬東”辨析的问题,认为从字理的角度还是比较容易判定的。王晓明老师解答了普通用户如何输入繁难字的问题,建议可以使用逍遥笔,至少可以输入7万字,而且可以手写输入。关于CJK研究进展方面,陆勤老师补充介绍了IRG(Ideographic Research Group)研究组的工作。朱翠萍老师和张建国老师也从各自公司的汉字输入软件方面做了解答。


各位专家从不同角度介绍了古籍数字化领域内汉字编码字符集的有关内容,讲授了自己的研究、实践和深入思考。对于汉字编码字符集的未来发展,专家们也都提出了各自的见解和期许。最后王军老师和杨海峥老师做了总结性发言,会议在友好而又热烈的讨论氛围中落下了帷幕,为古籍数字化的未来发展指明了方向。


C1E38