首页 >> 新闻公告 >> 通知公告 >> 正文

"古籍智能"第六讲:古籍数字化与汉字编码字符集

信息来源: 数字人文研究中心     发布时间:2022-07-10     浏览量:

会议信息


时间:7月16日下午2:00-5:00

腾讯会议号:452-854-916

B站直播:https://live.bilibili.com/22241979


主持人:

杨海峥(北京大学中国语言文学系)

朱翠萍(古联(北京)数字传媒科技有限公司)

主讲人:

王立军(北京师范大学文学院)

王晓明(教育部语言文字应用研究所)

陆 勤(香港理工大学电子计算机系)

张建国(北京北大方正电子有限公司)

朱翠萍(古联(北京)数字传媒科技有限公司)

筹办人:王军、李斌、李林芳

技术服务:李斌、王瑞、芦靖雅、张雨桐


承办单位:

北京大学-字节跳动数字人文开放实验室

北京大学人工智能研究院

主办单位:

北京大学数字人文研究中心

中国古籍保护协会古籍智能开发与利用专委会

联合主办单位:

北京大学中国古文献研究中心

南京师范大学文学院

指导单位:

高等院校古籍整理研究委员会

特别支持:

字节跳动公益



内容介绍


汉字字形复杂,在计算机内部传输、存储和处理时往往会遇到许多困难,在古籍出版及数字化工作中更需专门加以应对。在字形上,汉字在共时层面的累积数量越来越庞大,其中有相当一部分属于冗余成分,需要加以整理与认同。在编码上,还需要考虑同字异写和异体字对应用的需求给汉字编码带来的问题和挑战。在进行古籍数字化及建设相关平台时,也需要对汉字字形问题着重加以考虑,主动进行字符集整理与规范工作,从而保证准确性、确保效率、提升平台的学术价值。

在本讲中,我们非常荣幸地邀请到了著名汉字学专家和中文编码专家、重要字库及古籍数字化平台的建设者和负责人:北京师范大学文学院教授王立军老师,教育部语言文字应用研究所高级工程师王晓明老师,香港理工大学电子计算机系教授陆勤老师,北京北大方正电子有限公司副总裁兼字库业务板块总经理张建国老师,古联(北京)数字传媒科技有限公司副总经理朱翠萍老师,将为大家重点讲解汉字规范和汉字编码的相关知识,并介绍其在字库建设、古籍数字化、古籍平台建设中的意义和实践情况。



报告主题与主讲人简介


报告1:古籍印刷用字的整理与规范


摘要:作为表意体系文字的代表,汉字字形历来纷繁复杂。在变异和孳乳两大发展规律的推动下,汉字在共时层面的累积数量越来越庞大,其中有相当一部分属于冗余成分,需要加以整理与认同。汉字发展的过程,也是不断整理规范的过程。即使在当代,无论是用于现代汉语文本的简体字,还是用于古籍出版及其他特殊场合的繁体字,都仍然需要进行整理和规范。国务院2013年颁布的《通用规范汉字表》和国家标准委颁布的《古籍印刷通用字规范字形表》代表着国家当前汉字规范的最新标准。本讲座重点就汉字规范的必要性、汉字规范的历史、古籍印刷用字整理与规范的基本原则进行解析。



    12F7B  

报告人:王立军北京师范大学文学院教授、博士生导师。现任北京师范大学文学院院长、教育部哲学社会科学实验室(培育)汉字汉语研究与社会应用实验室主任、教育部人文社科重点研究基地民俗典籍文字研究中心主任、国家语委科研机构中国文字整理与规范研究中心主任,中小学(中职)语文国家教材建设重点研究基地副主任,《民俗典籍文字研究》主编。兼任国家语委语言文字标准审定委员会委员、中国训诂学会学术委员会副主任、中国语言学会常务理事、中国文字学会理事。主要从事汉字学、训诂学和词汇语义学的教学与研究。





报告2:汉字编码与古籍数字化平台构建    



摘要:通用的计算机平台以满足人们日常的信息交流为主,不足以支撑专业化的古籍资源库建设,古籍数字化平台需要重新构建。编码是计算机平台的核心要素,作为中文信息处理对象的汉字编码对古籍数字化平台的构建至关重要。本讲通过对国际标准ISO/IEC 10646中CJK统一汉字编码字符集的编码规则、字集构成等方面的深度剖析,并结合“中华字库工程”和“文渊阁《四库全书》”等工程实践,介绍古籍数字化平台的构建过程与方法,有助于提高工程效率、确保资源质量、保留资源原始特征信息,提升古籍资源库的学术价值。



   报告人:王晓明 教育部语言文字应用研究所高级工程师,国家语委语言文字规范标准测查认证中心主任,国际标准ISO/IEC 10646贡献编辑。曾任国际标准化组织汉 字工作组(IRG)技术编辑20余年。参与国际标准ISO/IEC 10646、国家标准GB 13000以及《通用规范汉字表》等多项规范标准的研制。参加《中华字库工程》、《文渊阁〈四库全书〉》、《四部丛刊》等多项数字化工程的规划设计和研发工作。





报告3:汉字编码和适于关联性汉字的编码方法    



摘要:汉字编码是中文数字化的最基本支持技术。由于汉字历史悠久,在书写和传播过程中出现很多不同的形体,还要考虑同字异写(不同地区和国家)和异体字对应用的需求给汉字编码带来的问题和挑战。在保证编码唯一性的前提下,既要考虑数字化汉字的通用性,还要顾及特定应用的特殊性。中文的传统编码侧重于交流和通用,为此制定了一系列汉字编码的认同规则。虽然大字符集汉字的标准化对古籍出版起到了很大的推动作用,但汉字认同对古籍研究和电子化也造成了很大的限制。

此讲座首先介绍汉字编码的基本原理和现有编码机制中汉字认同规则的必要及其局限,特别是一字一码的编码方式对古籍文字研究的局限。在此基础上,此讲座介绍一种新的关联编码技术,有助将汉字中的异体字在编码层级上发生关联,有助查找、索引和输入,在不影响通用汉字使用的基础上避免了因为汉字认同造成的字形缺失。




报告人:陆勤北京师范大学物理系无线电专业获工学士学位,在美国伊利诺大学(厄本那-香槟分校UIUC)计算机科学系获博士学位,任教香港理工大学电子计算机系20余年,至2020年退休。陆勤教授的主要研究方向包括自然语言处理、信息抽取、搭配抽取和本体构建。近年来的工作集中于情感分析,利用深度学习方法建立和扩展情感处理的资源,在情感分析中考虑个人偏见因素,并致力解决数据不平衡问题对情感分类的影响。

陆勤教授多年来一直致力于中文编码标准化和软件开发国际化,是该领域的先驱和专家,曾经帮助香港特区政府筹划第一个为信息技术开发服务的数字二十一世纪策略。在香港特区政府编制香港增补字符集方面,陆教授一力领军,贡献良多,现时香港所有中文电脑系统已广泛使用这一增补字符集并完全纳入国际标准 ISO/IEC 10646。陆教授在2012年获颁授香港特別行政区政府荣誉勋章。陆教授长期担任 ISO10646国际字符集标准中象形文字(含中文)工作组的召集人(ISO/IEC JTC1/SC2/WG2/IRG),并且是统一码(Unicode)的编辑之一。为表扬她在中文编码方面的突出成就,她在2015年获颁Unicode 斗牛犬奖。  





报告4:方正电子在超大字库方面的探索和实践    



摘要:为了满足辞书出版、古籍整理、身份证人名生僻字等方面的需求,解决超大字符集汉字的存储、输入、显示、排版等环节的问题,方正电子开发了方正超大字库解决方案,实现电脑客户端、WEB端、移动端、H5、小程序等多方面的支持。其中,8万多汉字的超大字库有6款;方正典码输入法,采用交互式图形界面,通过部首、笔画、笔顺等特征,免学习,快速定位输入汉字;方正书版支持超大字库的快速排版;方正飞翔提供PDF、ePub、HTML5等多元内容的发布。方正电子还参加了新闻出版署“中华字库”工程30万汉字的超大字库建设、中华优秀传统文化传承发展工程支持项目“中华精品字库”工程100款历代书法名家字库的开发工作。本讲座介绍方正电子作为新闻出版行业的技术服务方,作为中文字库行业的领先企业,在超大字库方面多年来的探索和实践。



报告人:张建国。北京北大方正电子有限公司副总裁兼字库业务板块总经理,高级工程师,兼任中国文字字体设计与研究中心副主任,中国中文信息学会理事及汉字字形信息专业委员会主任委员,全国语言文字标准化技术委员会委员,全国信息技术标准化技术委员会编码分技术委员会(SAC/TC28/SC2)副主任委员。先后担任过方正电子字模开发部部长、内容制作软件开发部部长、研发中心副总经理,领导过方正字库软件、方正飞腾排版软件等的研发。





报告5:基于古籍出版及数字化的字符集整理实践      



摘要:字符类型多样、异体关系复杂、终端需求不同、文字规范多维是古籍出版及数字化工作时时面对的问题,主动开展字符集整理与规范工作,是解决古籍排版、数据库字符呈现、古籍文稿自动校对和智能处理工具研发等系列问题的必要措施。本讲以中华书局参与的图书馆汉字规范处理项目,“中华字库工程”,制作“中华书局宋体字库”、中华悉昙体梵文字库、甲骨文字库,搭建“字符属性整理平台”等工作实践,讲述中华书局及古联公司作为专业古籍出版单位在字符集整理与规范方面所做的努力与探索,并希望能够在前述经验基础上,整合已有的《殷墟甲骨文数据库》《殷周金文大词典编纂平台》《战国古文字研究平台》《小学文献数据库》,形成集字形、文献、字库、输入法、协同编纂、成果发布为一体的“历代汉字与古文献综合应用与研究平台”。



报告人:朱翠萍女,古联(北京)数字传媒科技有限公司副总经理,文字学博士后。主要从事汉字信息处理相关整理与研究工作,先后参与新闻出版重大科技工程项目——“中华字库”工程之“版刻楷体字书文字整理”“宋元印本文献用字搜集与整理”“现代的汉语出版物用字及专门用字、非字符号的搜集与整理”;主持中国博士后科学基金特别资助项目“版刻楷体字书计算机辅助版本校勘研究”;参与“中华国学资源总库项目”,负责搭建“古籍整理工作平台”,参与古籍OCR、自动标点和繁简转换等系统研发工作;发表《基于字料库平台的字书整理研究》《搭建版刻楷体字书计算机辅助版本校勘平台的设想》等多篇文章;《数字人文》副主编。




问题征集

欢迎您提出针对本次讲座的主题,主讲人或与谈人的问题。这些问题将提交给本次讲座的主讲人/与谈人,在自由讨论阶段予以优先回答。请将您的问题交至 gdhc@pku.edu.cn 。谢谢!