2023年8月4日,古籍命名实体识别评测任务(GuNER 2023)的专题研讨会在哈尔滨圆满落幕,附属于第22届中国计算语言学大会(CCL 2023)。本次评测由北京大学人工智能研究院和北京大学数字人文研究中心联合组织。评测研讨会上,组织方对本次评测做总结报告,获得一至三等奖的参赛队伍做技术分析报告,展现了古籍命名实体识别任务的现有水平。
评测简介
古籍命名实体识别(Named Entity Recognition)任务的目的是自动化抽取古籍善本中的明确实体对象,实体类型包括人名、地名、机构名以及其他可定义的实体类型,例如官职名、书名等。古籍文献的命名实体识别是正确分析处理古汉语文本的基础步骤,也是深度挖掘和组织人文知识的重要前提。中华文明源远流长,传承数千年,也因此不同朝代、领域的古籍文献的词汇句法等语言特征亦有差异。古文字词含义的多样性、行文结构的连续性以及多用繁体字、无句读等特点,也增加了古籍文献命名实体识别任务的复杂和困难程度。
本次评测由北京大学人工智能研究院和北京大学数字人文研究中心联合组织,是第22届中国计算语言学大会附属的第一个技术评测。评测发布了基于“二十四史”建构的覆盖多个朝代的历时、跨领域数据资源,包含人名、书名、官职名三种实体,以完善古籍命名实体识别数据的扩充和任务的建立。此外,本次评测通过提供统一的评测提交平台,同时设置封闭和开放两个赛道,旨在比较、探索和挖掘不同规模的预训练语言模型在古籍命名实体识别任务中的应用能力,以此推动技术的突破和发展,助力古籍资源的智能开发与利用。
评测数据集
本次评测提供官方评测数据集“古籍命名实体识别2023”(GuNER2023),由北京大学数字人文研究中心组织标注,选用历史典籍“二十四史”建构覆盖多个朝代的历时跨领域数据资源,旨在扩充古籍命名实体识别数据集,并提升识别技术的领域适应性。数据包括供参赛队伍进行模型训练与调优的训练集,以及评测参赛队伍模型性能的封闭测试数据集,是古籍命名实体识别任务的目前为止最大规模的公开数据。
在语料标注前,我们针对古籍中不同类型的命名实体制定了标注规范,并在初期的标注实践中不断更新完善规范要求,使之更适合于标注不同时期、不同领域的古汉语文本。在大规模的数据标注实践中,我们采用了“多位标注员+专业审核员”的模式:首先要求至少两名普通标注者依照标注规范,独立地对同一段文本进行标注;如果二者的标注结果之间存在不一致,其次由专业标注者进行第二轮标注审核。标注完成的数据集以“二十四史”为基础语料,包含 13 部书中的 22 卷语料,随机截断为长度约 100 字的片段,标注了人名(PER)、书名(BOOK)、官职名(OFI)三种实体,总计 15.4 万字(计标点)。
评测数据集格式为文本文件,参赛队伍可根据模型需要进行转化处理。其中训练集数据样例如下所示,每行为一个段落,段中每一个实体以“{ }”标识,“{ }”后为实体类别。测试集数据集包含原文内容,参赛队伍需要提交在测试集文本上的实体识别结果文件,格式与训练集一致。训练集数据共2347段、15万余字,三种实体的数量共10246个。测试集数据共224段、约1.5万字。
{輔元|PER}兄{希元|PER},{高宗|PER}時洛州{司法參軍|OFI},{章懷太子|PER}召令與{洗馬|OFI}{劉訥言|PER}等注解{范曄|PER}{後漢書|BOOK},行於代。先{輔元|PER}卒。
{友倫|PER}幼亦明敏,通{論語|BOOK}、{小學|BOOK},曉音律。{存|PER}已死,{太祖|PER}以{友倫|PER}為{元從馬軍指揮使|OFI},表{右威武將軍|OFI}。
本次评测的测试数据集采用封闭方式给出,即仅给定原古文文本,需要参赛队伍训练模型对文本中的命名实体进行自动识别和标注,并将结果文件打包上传至在线评测平台,获取评测指标得分。本次评测使用准确率(Precision)、召回率(Recall)和F1值作为评价指标。
评测赛程
本次评测2023年4月10日开启报名,共吸引了127支队伍报名,体现了行业对古文自然语言处理技术的关注。其中,92支队伍来自北京大学、中国社会科学院、哈尔滨工业大学、苏州大学、南京航空航天大学、华北计算机系统工程研究所、澳门大学、香港中文大学、美国雪城大学等国内外多所科研院校和机构,参赛队伍学科背景多样化,既包括计算机及自然语言处理等工科背景团队,也有信息管理、信息传播、语言研究、民族学与人类学研究等人文社科研究团队;19支队伍来自字节跳动、数据方舟、杭州十域科技、中国电信、金融壹账通、元知科技、联想诺谛、水滴科技等企业;2支队伍为苏州大学和阿里巴巴公司的校企合作参赛;另有1支队伍来自中国民族图书馆。
为比较、探索和挖掘不同规模的预训练语言模型在古籍命名实体识别任务中的应用能力,本次评测设置了开放和封闭两个赛道:开放赛道要求参赛队伍必须使用 ChatGPT、文心一言、ChatGLM 等大模型;封闭赛道的参赛队伍禁止使用大模型,仅允许使用拥有开源License(如 GPL、BSD、MIT、Apache等)且参数量小于10B 的预训练语言模型。两个赛道使用不同的评测提交入口,参赛队伍可以同时参加两个赛道的评测提交,也可以选择只参加其中一个赛道。
封闭和开放赛道的评测提交入口于2023年4月28日至6月1日开放,共有48支队伍提交评测结果同场竞技,推动了技术的突破和发展。6月5日至9日,评测榜单排名较高的参赛队伍提交了实验数据、代码等信息,供评测组织方进行复现审核。组织方共收到了两个榜单共10支参赛队伍的有效提交代码。随后组织方依据榜单排名依次对参赛系统进行代码复现,同时联系参赛队伍了解实验细节、确认复现结果。6月15日,根据两个赛道的榜单排名以及复现审核结果,评测组织方公布了封闭赛道和开放赛道的评测得分、最终排名和获奖队伍。
获奖参赛队伍信息
技术报告投稿
本次评测组织方鼓励所有参赛队伍提交技术报告,展示技术手段和创新思考。截止2023年6月25日,共收到参赛队伍的技术报告6篇。组织方首先对这些技术报告进行初评和反馈,再根据修改后的技术报告推荐至CCL大会的评测研讨会论文提交系统。同时,组织方也将整个评测的赛事过程和结果汇总形成总结报告,一并提交至系统。最终经CCL大会的评测组委会组织评审专家进行双盲评审,共接收技术报告3篇和组织方的总结报告1篇。这些报告将被收录在 ACL Anthology 的 CCL2023 会议下开设专门的 Proceedings,敬请关注。
评测研讨会
2023年8月4-5日,由中国中文信息学会主办、哈尔滨工业大学承办的第22届中国计算语言学大会(CCL 2023)在哈尔滨举办。在8月4日下午的评测研讨会上,古籍命名实体识别评测任务(GuNER 2023)作为第一个评测任务,首先进行评测总结报告和参赛队伍分享报告。在总结报告中,评测组织方首先介绍了古籍命名实体识别任务的定义,总结了数据资源和算法技术上的难点,然后介绍本次评测在实体知识体系、时间和领域跨度、多赛道设置等方面的特色,随后介绍了评测的参赛情况和获奖结果,最后对参赛系统的模型结构、预训练方法、数据增强方法等进行了总结和范式分析。获得一至三等奖的前4支队伍随后在评测研讨会上报告了各自参赛系统的方法和实验结果,报告名分别为:基于信息论约束及篇章信息的古籍命名实体识别、基于增量预训练与对抗学习的古籍命名实体识别、基于持续预训练方法与上下文增强策略的古籍命名实体识别、基于 BERT-Global Pointer 的古籍命名实体识别方法。各位报告人与现场参会人员进行了充分讨论,促进了学界对古籍命名实体识别任务和本次评测的深入了解。
评测组织方介绍评测任务基本情况
最后,CCL大会组委会专家刘康研究员为获奖队伍颁发由主办方中国中文信息学会签发的荣誉证书。
CCL大会组委会为获奖队伍进行颁奖
实体标注是对数字化古籍文本进行概念与知识的抽取、挖掘的重要支撑,但人工标注成本较高。古籍命名实体识别任务,对于在数字人文环境下历史人文数据库和工具的构建具有显著的学术价值和实践意义。本次评测发布了覆盖多个朝代和领域的“二十四史”评测数据集,共15万余字,包含人名、书名、官职名三种实体超万数,是迄今为止规模最大、领域覆盖最全面的开放评测数据集,一方面弥补了数据资源的缺乏,另一方面从实体知识体系上扩充了古籍命名实体识别任务。同时本评测设置了封闭和开放两个赛道,聚焦于不同规格的预训练模型在古籍命名实体识别任务上的应用能力,提供统一开放的评测入口,促进研究界和工业界关注和探索提升识别技术的领域适用性,挖掘大规模语言模型在任务上的应用,推动了技术的长足发展。