会议信息
时间:2023年2月18日下午2:00-5:00
腾讯会议号:759-309-446
B站直播:https://live.bilibili.com/22241979
主持人:
王 军(北京大学)
刘 超(南京大学)
主讲人:
邱伟云(南京大学)
苗 威(山东大学)
Donald Sturgeon(英国杜伦大学)
苏 祺(北京大学)
杨 浩(北京大学)
筹办人:王军、李斌
技术服务:李斌、王瑞、芦靖雅、张雨桐
承办单位:
北京大学-字节跳动数字人文开放实验室
北京大学人工智能研究院
主办单位:
北京大学数字人文研究中心
中国古籍保护协会古籍智能开发与利用专委会
联合主办单位:
北京大学中国古文献研究中心
南京师范大学文学院
指导单位:
高等院校古籍整理研究委员会
特别支持:
字节跳动公益
大数据、人工智能等技术的兴起,改变了传统人文学科分析和处理资料的方法、观察和描述人类行为与社会现象的角度,以及呈现分析结果的形式。利用计算机技术以及数字人文平台,文化研究既可以做微观的细节观察,也能够做广大视域的宏观鸟瞰,在长时段、海量数据上考察文化演进的总体历程,探讨概念、思想、主题等在历史上的影响与演变。新的技术与方法将赋予人文学者在量化分析的基础上展开宏大命题的文化史研究。
在前几期会议中,我们邀请了专家先后介绍了古籍的数字化平台建设、历史地理信息系统的建设、古籍录入技术、专题资源库建设、汉字编码字符集、古籍目录数据库的建设、古籍的自然语言处理、古籍语料库建设等方面的重要内容,展示了古典文献数字化和智能化处理的最新进展。海量文献的知识化、智能化处理,使得在长时段、海量数据上进行文化史研究成为可能。本次会议我们十分荣幸地邀请到了在利用数字人文进行文化史、思想史研究方面颇有建树的专家:南京大学邱伟云老师、山东大学苗威老师、英国杜伦大学Donald Sturgeon老师、北京大学苏祺老师和杨浩老师,将为大家介绍有关数字人文研究平台以及数据驱动的文化史研究等方面的精彩内容。本次研讨会特别邀请南京大学刘超老师做主持和点评专家。
报告主题与主讲人简介
报告1:观念、事件、行动:数据驱动下中国近代思想文化史研究的实践
摘要:本次讲座将基于中国近代思想文化史研究方法的数字转向谈起,继而介绍基于思想文化研究实际需求而生的“中国近现代思想史专业数据库(1830-1930)”(香港中文大学中国文化研究所当代中国文化研究中心开发,刘青峰主编)以及“中国近现代思想及文学史专业资料库(1830-1930)”(由政治大学持续开发功能,郑文惠主编)的开发历程与设计理念,最后以基于数字技术考察下的中国传统“理”与“道”的概念如何完成近代转型的研究实践案例,揭示数据驱动下中国近代思想文化史研究方法的偏、执、得,并进一步提出未来的研究展望。
报告人:邱云伟。台湾政治大学文学博士,2013-2016年在台湾政治大学历史与思想数字人文实验室从事博士后研究,2017-2021年曾任职于山东大学历史文化学院,现任南京大学历史学院暨学衡研究院副教授,硕士生导师。目前兼为《东亚观念史集刊》(THCI Core)执行编辑、中国美术学院中国思想史与书画研究中心研究员、清华大学与中华书局联合主办《数字人文》季刊编辑委员、中国人民大学主办《数字人文研究》期刊编辑委员、中国中文信息学会社会媒体处理专委会常务委员。主要从事中国近现代思想史研究,侧重报刊传播、视觉图像、概念话语、数字人文等研究领域。主要著有专书《中国近代平等观念的形成(1895-1915)》(台北新文丰出版社,2015年),并于海内外人文社会科学研究刊物与丛书发表论文三十余篇。
报告2:东亚数字人文平台建设与研究案例
摘要:随着现代技术的飞速发展,传统的人文学科在研究范式上存在较大的提升空间。无论是历史学,还是语言学,由于其“悠久”与“活化石”的属性,从纵向溯源的角度,都有成熟的研究方法与手段。然而,在现代技术面前,也存在手段滞后,难以逾越“准科学”属性等情况,数据人文技术给与韩国相关的传统人文学科的研究,提供了与时代接轨的路径。我们以“东亚”区域作为核心限定,以历史学作为主导,融合计算机技术,在传统学科之中融入数字科技,推动了话语体系、学术体系的科学建构,同时也促进了知识的普及与大众传播的繁荣。
报告人:苗威。 山东大学东北亚学院、历史文化学院教授、博士生导师,历史学博士。吉林省人民政府“长白山学者”特聘教授,吉林省拔尖创新人才。主要从事东亚跨边界历史、数字人文的研究与教学工作,在交叉学科数字人文、区域与国别方向培养人才。主持国家社科基金重大专项、国家社科基金冷门绝学团队项目、国家社科基金一般项目、教育部后期资助项目等各类项目20余项。兼任全国新文科教育研究中心研究员,中国朝鲜史研究会理事、副秘书长等。专著5部、合著4部,其中《乐浪研究》入选“国家哲学社会科学成果文库”。发表论文100余篇,主编“东亚数字人文丛书”。
报告3:以众包为核心的古籍数字化、语意标注、以及知识图谱建构
摘要:数字化深刻改变了人们与古籍资料互动的方式。古籍印刷版、引得、索引等很大程度上已被善本图像库、全文资料库取代。这些数字化的成果已经对研究者带来了极大的方便,但大多数资料库把古籍内容视为一连串的文字,因此使用者可以检索字串,但不能以概念查询。给数字化文献加上机器可读的语意标注表示文本中被提到的实体(如:历史人物、时间、地点、组织、官位等)并连接到相关数据,可同时达到两个目的:第一,可为读者提供相关阅读辅助工具、亦可实现概念查询;第二,有助于古籍文献内容的自然语言处理。
这次讲座介绍ctext.org正在进行的众包系统工作,其主要贡献在于提供:第一,以众包为基础的语意标注系统;第二,以众包为基础的关联开放知识图谱,表示古籍中各种咨询并以RDF输出;第三,从文本中抽取结构化知识的半自动工具;第四,对中、韩、日各朝代帝王一个机器可读的日期表示法,使知识图谱能够精确的记录并自动转换三千多年的各种表示日期的表达。
报告人:Donald Sturgeon(德龙)。现任英国杜伦大学计算机科学系助理教授。香港大学哲学系博士,曾在香港城市大学和美国哈佛大学从事博士后研究。2005年创办“中国哲学书电子化计划”数字图书馆(https://ctext.org)担任主编至今。主要研究兴趣为:数字方法对中国古代语言、历史和文学研究的应用。目前的研究项目包括:建立以众包为基础的古籍标记和知识图谱建设平台、机器学习对中文历代文献写作年份辨析的应用、古汉语的自然语言处理等。
报告4:面向中国古代典籍的文本复用与文化史研究
摘要:古代典籍常有袭用前代文字的现象,或逐字逐句直引原文,或以相近文字撮要概括,或转述表达相近之意。通过分析文本复用行为,可以追踪前代的思想观念在后世传播、演化、继承、发展。北京大学数字人文中心利用预训练语言模型及对比学习技术,在海量文本中自动识别和提取文献中表述相近、取意相同的复用文本,并开发了《论语》文本复用可视化平台、古籍大数据分析平台等系统。系统提供了有效提取古籍中关键概念和挖掘重用关系的工具,并以多维度呈现分析结果。可按照典籍、篇章、句子、语词等粒度,从复用频次、具体复用内容等多种角度对文献中包含的思想主题、语词概念在不同历史阶段的复用情况进行分析,探析不同文献中思想受关注程度的演变,以及在不同历史时期的地位变迁。
报告人:苏祺。北京大学外国语学院外国语言学及应用语言学研究所长聘副教授、博导,北京大学人工智能研究院副教授(双聘)、北京大学数字人文中心副主任。博士毕业于北京大学计算机科学技术系计算语言学研究所,并于北京大学外国语学院、香港理工大学人文学院从事博士后研究。主要研究领域为自然语言处理、语料库语言学、数字人文。主持国家自然科学基金、北京市社会科学基金、国家重点研发计划项目子课题、国家社会科学项目重点项目子课题等科研项目。获得北京大学王选青年学者奖、黄廷方/信合青年杰出学者奖、电子学会科技进步一等奖等奖项。
报告人:杨浩。2012年北京大学哲学系中国哲学专业博士毕业。2014年至2022年任北京大学哲学系助理教授、《儒藏》编纂与研究中心研究员,现为北京大学人工智能研究院副研究员、北京大学数字人文中心副主任。主要研究领域包括:宋明理学、隋唐佛学、魏晋玄学、儒释道三教关系,近年来的主要兴趣在将人工智能的方法运用于古代典籍的整理与研究。出版专著《孔门传授心法——朱子〈四书章句集注〉的解释与建构》(上海:东方出版中心,2015年),译注《近思录》(北京:中华书局,2020年)等。
问题征集
欢迎您提出针对本次讲座的主题,主讲人或与谈人的问题。这些问题将提交给本次讲座的主讲人/与谈人,在自由讨论阶段予以优先回答。请将您的问题交至 gdhc@pku.edu.cn 。谢谢!