古籍文献的命名实体识别旨在自动识别出古籍文本中事件基本构成要素的重要实体,是正确分析处理古汉语文本的基础步骤,也是深度挖掘、组织人文知识的重要前提。中华文明源远流长,传承数千年,也因此不同朝代、领域古籍文献的词汇句法等语言特征亦有差异。古文字词含义的多样性、行文结构的连续性以及多用繁体字、无句读等特点,也增加了古籍文献命名实体识别任务的复杂和困难程度。
二十四史是中国古代各朝撰写的二十四部正史的总称,均以纪传体编撰。它上起传说中的黄帝时期,下至明朝崇祯十七年。涵盖中国古代政治、经济、军事、思想、文化、天文、地理等各方面的内容。
本次古籍文献命名实体识别评测由北京大学人工智能研究院、北京大学数字人文研究中心组织。基于“二十四史”,设计了涵盖人名、书名、官职名的实体知识体系,建构了覆盖多个朝代的历时、跨领域数据资源,并提供统一的评测提交平台,以此推动技术的突破和发展,助力古籍资源的智能开发与利用。
最新消息
4 月 22 日:训练数据已发布。
4 月 10 日:报名链接(forms.office.com/r/g8JqBqLCNz)已开通。
更多内容见评测首页:
https://guner2023.pkudh.org/(opens new window)
任务简介
本次古籍命名实体识别评测任务要求参赛系统自动识别出“二十四史”文本段落中的人名(PER)、书名(BOOK)、官职名(OFI)三种实体。历史典籍中,事件的相关人物实体是最为鲜活、最易被获取的知识,同时官职身份亦是体现事件人物关系的重要信息。但目前官职名的自动识别还鲜有关注,因此本次评测提供了官职名自动识别的训练数据,以期深入挖掘人物身份和关系。
本次评测提供官方评测数据集“古籍命名实体识别 2023”(GuNER 2023),由北京大学数字人文研究中心组织标注,语料来源是网络上公开的部分中国古代正史纪传文本。数据包括供参赛队伍进行模型训练与调优的训练集,以及评测参赛队伍模型性能的封闭测试数据集。
训练集以“二十四史”为基础语料,包含 13 部书中的 22 卷语料,随机截断为长度约 100 字的片段,标注了人名(PER)、书名(BOOK)、官职名(OFI)三种实体,总计 15.4 万字(计标点)。数据样例如下所示,每行为二十四史原文中的一个段落,段中每一个实体以“{}”标识,“|”后为实体类别。
{輔元|PER}兄{希元|PER},{高宗|PER}時洛州{司法參軍|OFI},{章懷太子|PER}召令與{洗馬|OFI}{劉訥言|PER}等注解{范曄|PER}{後漢書|BOOK},行於代。先{輔元|PER}卒。
{友倫|PER}幼亦明敏,通{論語|BOOK}、{小學|BOOK},曉音律。{存|PER}已死,{太祖|PER}以{友倫|PER}為{元從馬軍指揮使|OFI},表{右威武將軍|OFI}。
评测赛程
报名及数据集开放时间:2023 年 4 月 1 日——5 月 31 日
提交截止时间:2023 年 6 月 1 日
结果公布时间:2023 年 6 月 15 日
提交中文或英文技术报告:2023 年 6 月 25 日
中文或英文技术报告反馈:2023 年 6 月 28 日
正式提交中英文评测论文:2023 年 7 月 3 日
评测论文录用通知:2023 年 7 月 10 日
评测研讨会:2023 年 8 月 3-5 日
奖项设置
本次评测将分别设置一、二、三等奖,奖金总额为 20000 元。同时由主办方中国中文信息学会为本次评测获奖队伍提供荣誉证书。
同时,获奖队伍所提交技术报告将经大会组织评审专家进行双盲评审,有机会被 CCL Anthology 和 ACL Anthology 收录。