首页 >> 新闻公告 >> 新闻信息 >> 正文

“古籍智能信息处理”系列研讨会第十讲回顾

信息来源: 数字人文研究中心     发布时间:2023-02-24     浏览量:

2023年2月18日下午两点,由北京大学数字人文研究中心、北京大学人工智能研究院主办的“古籍智能信息处理”系列专题研讨会第十讲在腾讯会议如期举行。本次讲座由北京大学数字人文研究中心、中国古籍保护协会古籍智能开发与利用专委会主办,北京大学中国古文献研究中心、南京师范大学文学院联合主办,北京大学-字节跳动数字人文开放实验室、北京大学人工智能研究院承办,会议由北京大学王军老师和南京大学刘超老师主持。


此次讲座主题为“数据驱动的文化史研究”,南京大学邱伟云老师、山东大学苗威老师、英国杜伦大学Donald Sturgeon老师、北京大学苏祺老师和杨浩老师先后发表了精彩的报告,本次研讨会通过腾讯会议、哔哩哔哩平台、抖音同步直播,来自国内外高校及相关研究领域的千余位学者一同观看,共襄盛会。



  开场致辞

会议伊始,王军老师提出了“数字人文如何助力研究”的问题。王老师指出,人工智能发展迅速,知识积累、逻辑推理型的工作可能会被机器取代,但人文学者的“生”的智慧无法被取代,即感知言外之意、弦外之音和透过外部现象理会事物本质的象数思维。在将来,通过利用机器对大量材料进行梳理,人文学者能够更便捷地分析现象、阐释材料和表达意义,这是数字人文工具协助人文研究的途径。随后,王军老师介绍了研讨嘉宾,并表示欢迎。


   


在专题报告之前,主持人南京大学刘超老师先介绍了文化史研究方法的发展脉络,使与会师友对文化史研究法先有一宏观掌握,进而指出人文研究从一开始便带有强烈的实证主义色彩,并常运用量化研究的手段。随着时间的发展,人文研究的工具在不断演进,文化史研究和量化研究的关系更加紧密。新文化史崛起后,碎片化研究盛行。随着信息技术的发展,文化史的研究方向再次转变,自然科学、社会科学和人文科学紧密结合。在当代的技术条件下,人文学科与数字人文结合有着较大的发展空间,但也存在信息量有限,信息处理手段不理想、信息整合能力不足的局限性。


专题报告


一、观念、事件、行动:数据驱动下中国近代思想文化史研究的实践

邱伟云老师从语言转向的新文化史出发,表示可以通过言词观察思想与社会形势之间的关系。他以辛亥革命之前的“幸福”观关键词丛转变研究为例,提出通过数字人文方法,可以帮助文化史研究者在巨量文献中研究言词的发展,并进而掌握文化与观念、事件、行动的互动变迁轨迹。邱老师指出,尽管过去十余年的数字化潮流下产生一批古籍数据库成果,但也产生了人力难以驾驭复杂与巨量史料以进行研究的新问题。随后邱老师以 “中国近现代思想史专业数据库”的三个研究阶段为例,指出人文思想文化研究的需求在逐步深化,唯有基于研究需求而设计的数字人文平台与方法才是好平台与好方法。邱老师以结合数字技术进行的中国近代“理”与“道”的概念研究过程为例,指出数据驱动下的思想史研究是可取的。他指出,运用数字人文研究方法可以关注宏观思想文化现象、以言词演变作为文化的观察对象、消除学科偏见与材料限制并掌握复杂思想文化的动态发展情况。最后,邱老师对数据驱动下思想文化史研究做出了美好展望。



二、东亚数字人文平台建设与研究案例

苗威老师从东亚区域的角度介绍了东亚数字人文团队的探索。苗老师首先介绍了东亚数字人文平台建设的主旨与框架,她表示,东亚数字人文的初衷是因为史学领域冷门“绝学”的空间越来越大和东亚数字人文领域缺少具有国际影响力的项目。传统人文学科研究遭遇瓶颈、东亚历史与文化“问题化”、历史书写艰深与和互联网发表便捷的共存是目前东亚人文书写的表征。东亚数字人文工作主要是基于现实需求和基于实践的问题解决。东亚数字人文团队以传统人文学科为基础,以东亚区域为凝聚,做到传统和现代的有机凝合和文理工学科协同攻关。随后苗老师以专题文献实体关系抽取与标注、适应性预训练和汉籍使者行程命名实体识别和东亚古籍中印章的提取为例介绍了其团队数字人文的技术实践。表示东亚数字人文实践通过使用地理信息系统和天文系统实现了“天地人合一”。随后,苗老师介绍了东亚数字人文综合门户建设的基本情况,并介绍了相关功能。最后,苗老师希望通过东亚数字人文研究,天、地、人、文等诸多元素相互配合,更大程度地去主观化,让客观化的内容更加清晰地呈现,让历史学真正成为科学,并欢迎学界同仁前来探讨。




三、以众包为核心的古籍数字化、语意标注、以及知识图谱建构

Donald Sturgeon(德龙)老师介绍了其创办的“中国哲学书电子书计划”数字图书馆,该平台实现了图文对应和不同版本的扫描资料与文本紧密连接,吸引了大量的访问者。德龙老师从平台建设流程中的众包模块为例,介绍了现有的众包修改、版本控制和编辑记录功能。并表示 “中国哲学书电子书计划”的众包编辑数量在不断增多。随后,德龙老师指出古籍标注的重要性,标注的目的在于消歧,而消歧需要关于实体的具体数据才能作判断,通过采用“属性+限定符”的数据结构实现实体识别,从而实现版本控制与众包。用户在“中国哲学书电子书计划”标注时,可以用简单的文本挖掘指出有关联的候选实体,并通过“系统推荐+用户选择”的模式实现半自动知识图谱的建构。最后,德龙老师介绍了至今的进度和近期工作目标,表示将来会利用人工智能技术协助建设,期待大家使用“中国哲学书电子书计划”数字图书馆并予以反馈。



四、面向中国古代典籍的文本复用与文化史研究

苏祺老师表示,当代古籍研究离不开人工智能的协助,利用技术可以实现古籍从文本到知识的转变,在这过程中数据与算法都起到了重要的作用。苏老师指出,古籍中“互见文献”反映的是思想的传承,她介绍了北京大学数字人文中心开发的《论语》文本复用可视化平台、古籍大数据分析平台等系统功能。通过分析文本复用关系和字词粒度视角下的思想差异,可以实现追踪文本演化、追溯典故的形成等功能。最后,苏老师以ChatGPT为例,指出智能时代,人和数据都是不可或缺的。

接下来,杨浩老师介绍了利用数字工具进行古代典籍的文本复用与文化史研究的案例。他指出,在古典文献研究中,文本与文本间的关系十分重要,他从《论语》《孟子》《肇论》等文献中的文本复用现象为例,指出可以据此实现分析思想变迁、追溯典故、分析文献古今影响力等功能。


   



互动问答

报告结束后,先由中国人民大学汤元宋老师进行了点评。他提到,文化史研究具有跨断代、跨区域、跨学科的特点,但随着技术的发展,学科壁垒在慢慢打破,例如地图集的利用。文化史的研究,将有从概念史、观念史到史源学转换的趋势。对历史资料中的词频进行量化分析,能够更好地判断各个历史时期的特点,提高研究工作的效率。人文学者可以驱动数据库的建设,再由数据库来驱动文化史的研究,更加精准地切合学者们的研究需求。



随后,与会人员展开了热烈的自由讨论。首先是北京大学的王军老师,他十分感谢各位学者的参与,并且表示人文研究已经出现了新的范式。南京大学邱伟云老师表示,对于杨浩老师所展示的易经卦象兴趣浓厚,数字人文技术给人文学者的研究带来了新的喜悦。

会议最后,王军老师做了总结性发言,期望今年能够组织更多线下的学术交流活动。各位老师和线上观众朋友合照留念。本次研讨会内容丰富,观众们热情参与,积极互动,纷纷表示收获颇丰。



本次研讨会由全国高等院校古籍整理研究工作委员会和中国古籍保护协会古籍智能开发与利用专业委员会指导,字节跳动公益特别支持。

本期研讨会视频回放已在B站更新(https://www.bilibili.com/video/BV1w84y1J7AY)。系列研讨会的相关信息将会在古籍智能网站(http://gujiai.cn)上进行更新。此外,研讨会还将开展暑期课程等一系列后续活动。敬请关注。