首页 >> 新闻公告 >> 通知公告 >> 正文

"古籍智能"系列研讨会:第四讲|智能时代的古籍OCR技术

信息来源: 数字人文研究中心     发布时间:2022-05-16     浏览量:


会议信息

时间:5月21日下午2:00-5:00

腾讯会议号:680 965 346

抖音直播号:BDDHLab

B站直播地址:https://live.bilibili.com/22241979


主持人:金连文(华南理工大学)王军(北京大学数字人文研究中心)

主讲人:刘成林(中国科学院自动化研究所)金连文(华南理工大学)刘永革(安阳师范学院)张弛宜(北京书同文公司)

筹办人:王军、李斌、李林芳、何燕

技术服务:李斌、王瑞、李佳纯、卢靖雅、张雨桐
承办单位:北京大学-字节跳动数字人文开放实验室北京大学人工智能研究院

主办单位:北京大学数字人文研究中心中国图象图形学学会中国自动化学会

联合主办:中国古籍保护协会古籍智能专委会中国图象图形学学会文档图像分析与识别专委会中国自动化学会模式识别与机器智能专委会

指导单位:高等院校古籍整理研究工作委员会

特别支持:字节跳动公益

内容介绍

中华文明是历经数千年绵延至今、唯一未曾中断的文明体。作为中华文明的传承载体,收藏在海内外的数十万种古籍文献具有不可估量的历史文化价值。长期以来,古籍整理靠人力完成,高度依赖专家经验,成本高、效率低,进展缓慢。光学字符识别OCR(Optical Character Recognition)是对图片中所包含的文字图像自动识别并输出为字符编码的计算机技术,包括:版面分析、图像分割、文本检测、文字识别等技术过程。OCR是古籍数字化的核心技术,是实现古籍数据库检索、文本挖掘、知识发现以及网络传播的前提和基础。

古籍材料年代久远,所包含的文字量庞大、异体字众多、字形字体多变、版式多样、页面模糊,再加上缺乏充足的训练数据,这使得古籍的OCR远较常规的OCR任务具有挑战性。近年来,深度学习技术在这一领域的应用显著提升了古籍OCR的准确率,降低了应用门槛,极大地推动了古籍数字化的进程。

本次讲座我们荣幸地邀请到了古籍OCR领域的顶级专家:中国科学院自动化研究所副所长、模式识别国家重点实验室主任、中国科学院大学人工智能学院副院长刘成林老师,华南理工大学教授、中国图像图形学学会常务理事、文档图像分析与识别专委会主任金连文老师,以及安阳师范学院计算机与信息工程学院院长、甲骨文信息处理教育部重点实验室主任刘永革老师向大家全面介绍古籍OCR的技术流程和前沿进展。我们还邀请了在古籍OCR领域的业界翘楚书同文公司总裁张弛宜女士向大家介绍古籍OCR的业界实践。

本次讲座得到了中国图像图形学学会文档图像分析与识别专委会和中国自动化学会模式识别与机器智能专委会的鼎力相助,在此表示衷心感谢。


报告主题与主讲人简介

报告1:复杂文档图像版面分析

时间:14:00~14:45

摘要:古籍文档识别面临图像退化、版面复杂、字符类别集大而标记样本少等困难。本报告概要介绍复杂文档图像版面分析研究进展,希望对古籍文档数字化技术研发和应用提供参考。版面分析任务包括文档区域分割和逻辑关系分析,受文档元素多样、图文变形、结构复杂多变等因素影响,一直没有很好地解决。近几年,用结构化预测模型(条件随机场、图神经网络等)结合深度学习的方法,在复杂文档版面分析方面取得了很大进展。本报告首先概述版面分析的基本方法(自上而下和自下而上的方法),然后重点介绍基于全卷积网络和结构化预测的版面分析方法研究进展,包括基于图神经网络的复杂文档图像区域分割和关系分析等。


报告人:刘成林

中国科学院自动化研究所副所长,模式识别国家重点实验室主任,研究员、博士生导师,中国科学院大学人工智能学院副院长。1989年、1992年、1995年分别在武汉大学、北京工业大学、中国科学院自动化研究所获学士、硕士和博士学位。1996年至2004年先后在韩国科学技术院、日本东京农工大学、日立中央研究所从事博士后和研发工作。2005年起在中国科学院自动化研究所任研究员。2008年获得国家杰出青年科学基金。研究兴趣包括模式识别、机器学习、文字识别与文档分析等。在国内外期刊和学术会议上发表论文300余篇,合著英文专著一本。现任Pattern Recognition期刊和《自动化学报》的副主编,以及多个期刊的编委。任中国人工智能学会副理事长、会士,中国自动化学会会士、模式识别与智能系统专委会主任,中国图象图形学学会常务理事。美国电气电子工程师协会会士 (IEEE Fellow)、国际模式识别学会会士(IAPR Fellow)。


报告2:古籍OCR——数据、方法及应用

时间:14:45~16:00

摘要:中国几千年辉煌的文明,留下了海量的古籍,承载着丰富的历史和文化传承,具有极大的历史价值、文物价值、文化价值、社会及科学价值。古籍透彻数字化在古籍保护、检索、传播、信息挖掘及知识发现等方面具有重大意义,而光学字符识别(Optical Character Recognition, OCR)是古籍数字化的重要核心支撑技术之一。本报告将简要介绍目前OCR的主流技术及发展现状,介绍一些典型的面向古籍OCR的开源数据集、弱标注少样本情况下的古籍文字识别技术、高精度古籍图像文字分割技术、以及相关OCR技术在古籍数字化过程中的一些典型应用展示,并对古籍文档图像分析与识别的未来发展方向进行展望及讨论。


报告人:金连文

华南理工大学二级教授,博士生导师。于1991年、1996年分别于中国科技大学、华南理工大学获学术学位和博士学位,目前兼任中国图像图形学学会(CSIG)常务理事、CSIG文档图像分析与识别专委会主任、CAA模式识别与机器智能专委会常务委员等学术服务职务。主要研究领域为文字识别、文档图像理解、深度学习、计算机视觉及应用等,在IEEE Transactions及重要国际国内学术期刊、ICDAR / ICFHR / CVPR / AAAI / IJCAI / NeurIPS / ECCV等重要国际会议上发表学术论文200余篇,其中SCI期刊论文80余篇,Google Scholar引用9000余次,H-Index 49。获省部级科技奖5次,指导学生参加国际学术竞赛荣获冠军20余次。


报告3:甲骨文大数据及相关识别处理

时间:16:00~16:20

报告人:刘永革

甲骨文信息处理教育部重点实验室主任,安阳师范学院计算机与信息工程学院院长,教授,硕士生导师,主要研究方向甲骨文信息处理,主持了2项国家自然基金面上项目,主持了2项国家社科基金重大项目子课题,1项教育部、国家语委甲骨文研究与应用专项。

摘要:甲骨文是迄今为止中国发现的年代最早的成熟文字系统,是汉字的源头和中华优秀传统文化的根脉,但是甲骨文研究遇到很多难题,在当今信息时代,人工智能技术能不能在甲骨文研究方面发挥作用?我们甲骨文信息处理教育部重点实验室在甲骨文大数据及平台建设、甲骨文检测与识别等方面进行了一些探索。


报告4:古籍OCR二十五年工程应用历程

时间:16:20~16:40

报告人:张弛宜,北京书同文数字化技术有限公司

摘要:OCR用于大规模工程实践迄今已25年,古籍OCR的工程需求源于《文渊阁四库全书》全文电子版工程,书同文古籍OCR技术从与高校的合作研发启动,经历破冰、自主研发、低谷坚守、突破创新,达到目前大规模生产常规全文古籍数据的实用阶段。本次讲座报告人将结合其25年古籍全文数字化的从业经历,并结合书同文古籍库52个子数据库,阐述古籍OCR在各类大规模工程数据生产中的所发挥的作用,及其相关联的标准及技术的工程应用。

提问及讨论环节

时间:16:40~17:00


问题征集

欢迎您提出针对本次讲座的主题,主讲人或与谈人的问题。这些问题将提交给本次讲座的主讲人/与谈人,在自由讨论阶段予以优先回答。请将您的问题交gdhc@pku.edu.cn。谢谢!