首页 >> 新闻公告 >> 新闻信息 >> 正文

“古籍智能信息处理”系列研讨会第九讲回顾

信息来源: 数字人文研究中心     发布时间:2022-11-24     浏览量:

2022年11月20日下午两点,由北京大学数字人文研究中心、北京大学人工智能研究院主办的“古籍智能信息处理”系列专题研讨会第九讲在腾讯会议如期举行。本次讲座由北京大学数字人文研究中心、中国古籍保护协会古籍智能开发与利用专委会主办,北京大学中国古文献研究中心、南京师范大学文学院联合主办,北京大学-字节跳动数字人文开放实验室、北京大学人工智能研究院承办,会议由北京大学苏祺副教授和南京师范大学李斌副教授主持。


本期讲座的主题为“古籍语料库的构建与应用”,南京师范大学李斌老师、中国科学院软件所韩先培老师、中国中医科学院中医药信息研究所朱彦老师以及北京语言大学饶高琦老师先后发表了精彩的报告。著名计算语言学家冯志伟先生全程参会,并表达了对本次会议的肯定。在讨论和互动环节,各位老师针对线上观众的提问给出了细致的解答。本次研讨会通过腾讯会议、哔哩哔哩平台同步直播,来自国内外高校及相关研究领域的一千多位学者共同观看,共襄盛会。




  开场致辞

会议开场,苏祺副教授指出,为了能让古籍真正“活”起来、“智”起来,除了技术上的创新之外,最重要的就是在古籍的语料库方面具有足够丰富的一个语料库资源和知识库。目前在古籍智能方面,亟需建立统一开放、大规模、跨时代、多领域的古籍语料库。古籍语料库的建设是古籍数字化进程中不可或缺的一部分,对于词典编纂、语言教学和语言研究等各个领域和各个层面都具有非常重要的意义。随后,苏祺老师介绍了参与本次研讨会的四位专家,并请各位专家先后发表了基于各自主题的精彩报告。



专题报告


一、古籍语料库的构建和应用


李斌老师从多年古汉语语料库的构建经验出发,首先对比了古埃及、苏美尔等其他语言古籍与汉字古籍在文本分析方面的区别,总结了古汉语标注过程中在各个层面遇到的问题。随后通过统计分析古汉语语料库中的字频、词频和词类的方法,展示了基于先秦文献标注语料库在语言计算层面进行的一系列探索。另外,现场演示的《资治通鉴》检索平台,也将人物关系、时间和地点等内容进行了生动丰富的可视化呈现。李斌老师在语料库标注的基础上,完成了对文史知识的构建与计量挖掘,这一方法对相关研究者具有很好的启发性。最后李斌老师总结了对未来工作的展望,包括如何修正语料库中的错误、加强人才培养、实现语料库更多场景的应用等方面。


   


二、中华经典诗词知识图谱构建技术


韩先培老师基于政策和中华经典诗词本身具有的特征两个背景,介绍了中华经典诗词知识图谱的构建方法和技术。首先,在古代文学专家的协助下,结合知识抽取技术,形成多层次诗词知识本体体系,为描述和组织中华诗词提供基础。其次,基于前沿的知识图谱技术,构建出多侧面的中华诗词知识图谱,为中华诗词的教育普及提供资源。最后,通过立体化知识展示,研发多维度中华诗词展示平台,为中华诗词的知识传播、教育普及和文化传承提供支撑。韩先培老师介绍的诗词图谱平台,提供了一个中华经典诗词与自然语言处理以及大数据知识挖掘相结合的优秀范例。


   


三、中医古籍语料库知识库一体化系统研发


朱彦老师以屠呦呦发现青蒿素为例,介绍了中医古籍语料库的必要性,以及基于语料库及知识库进一步激发中医古籍活力的重要性。接着朱彦老师详细介绍了中医古籍本体库的设计思路和构建过程。在清代医书分词语料库和分词规范方面,以及中医实体自动标注方面,老师介绍了前期的研究性工作。在有关中医古籍的知识库及管理系统的设计和功能方面,朱彦老师也从领域专家的视角给其他领域古籍标注系统的构建以很大的启发。最后朱彦老师指出了中医古籍语料库实用、好用、规范、推广的未来工作方向。


   


四、近现代报纸语料库的建设与应用——以《申报》《人民日报》大跨度历史语料库为例


饶高琦老师以《申报》和《人民日报》为例,通过各种数据的统计和分析,介绍了搭建近现代报纸语料库的方法和技术。首先从语料概况,包括字、词以及标点符号等基本数据展示了语料库搭建的前期工作。随后饶高琦老师介绍了全文检索引擎,该检索系统可进行词性符号、各种通配符和字符混合检索,尤其是词形词类的通配检索。饶老师还化用“中国式现代化”的说法,希望通过语言、数据的变迁,窥探中国现代化进程中容易被忽视的思潮变迁和社会变迁。最后老师作出未来研究展望,即研究和搭建一个近代历时语料库,以期能够解决“现代汉语是怎么来的”这个关键问题。

   



互动问答

在问答环节,著名计算语言学家冯志伟先生,回顾了他研究语言学和计算机的经历,冯先生结合中国语言学的发展进程,指出计算机在处理古籍内容方面大有可为,并对“古籍智能”系列讲座的开展以及四位专家的报告给予了高度的评价和认可。随后,在苏祺副教授的主持下,四位专家就评论区的留言,例如古代汉语语料库的主要难点有哪些,哪些内容可以做自动标注,《贵州日报》与《人民日报》语言研究的区别等问题,基于自身的研究经验给出了具体而详细的回答。最后,苏祺副教授作了总结性的发言并与参会的各位老师、专家和学者合照留念。至此,本次研讨会在交流与收获的充实氛围中圆满结束。


   


本次研讨会由全国高等院校古籍整理研究工作委员会和中国古籍保护协会古籍智能开发与利用专业委员会指导,字节跳动公益特别支持。

本期研讨会视频回放已在B站更新(https://www.bilibili.com/video/BV1T841177e9)。“古籍智能”系列研讨会第十讲将于2022年12月下旬举行。系列研讨会的相关信息将会在古籍智能网站(http://gujiai.cn)上进行更新。此外,研讨会还将开展暑期课程等一系列后续活动。敬请关注。