首页 >> 新闻公告 >> 新闻信息 >> 正文

“数字与人文节气沙龙”(2025芒种篇)举行,聚焦“人工智能辅助的社会调查与分析”

信息来源: 北京大学新闻网     发布时间:2025-06-26     浏览量:

2025年6月9日中午,“数字与人文节气沙龙”系列活动第四十五期暨人工智能研究院学术沙龙第十六期在百周年纪念讲堂四季庭院举行。本次沙龙聚焦如何运用大语言模型助力社会调查研究,深入探讨在社会调查研究中引入大语言模型所面临的关键问题,旨在促进社科理论与人工智能方法的结合。活动由北京大学社会科学部与人工智能研究院联合主办,吸引了来自国际关系学院、国家发展研究院、光华管理学院、中国社会科学调查中心、新闻与传播学院等多领域的专家学者参与。

活动海报

沙龙由社会科学部副部长郭琳主持,邀请光华管理学院社会研究中心助理教授、研究员杨锋担任主讲人,中国社会科学调查中心研究员吴琼与人工智能研究院、集成电路学院研究员孙仲作为与谈嘉宾进行深度回应。

郭琳代表组织方回顾了沙龙的初衷与形式安排:采用“主报告+回应+开放讨论”的模式,聚焦数据技术在社会科学中的实际应用问题,鼓励跨学科对话与实证创新。沙龙主题既回应了近年来人工智能技术在社会研究领域引起的热议,也试图在学术上推进理论与实践的双重探索。

杨锋作主题分享

在主题分享中,杨锋围绕“大语言模型是否可以赋能社会调查数据的收集和分析”这一核心问题展开。他指出当前社会调查所面临的回应率下降、敏感性偏差与缺失数据问题,并借助一系列国外已有研究,展示了大语言模型在“模拟人类回答”方面的潜力。例如,多个政治学研究者已尝试将大模型用于生成政治观点和行为倾向数据,并取得较高一致性结果。

杨锋也提出,大语言模型所带来的偏见风险不容忽视。他讨论了模型在预测过程中因训练语料与算法设定带来的倾向性问题。此外,关于大语言模型是否能够真实反映人群的异质性,不同模型在预测结果中所呈现出的“社会共识”假象同样应引起警惕。这种假象可能掩盖了群体内部的重要差异,误导对公众意见结构的理解。

在实证部分,杨锋汇报了两个初步完成的实证研究。第一项研究基于中国的 CFPS(中国家庭动态追踪调查)数据,探讨在面对主观变量缺失的情形下,大语言模型是否能够实现有效的预测与插补。该研究设计了多种数据缺失机制,并系统比较多个大语言模型与传统插补方法的表现。第二项研究聚焦于大语言模型在辅助社会调查分析过程中所面临的偏见风险。

吴琼回应

在嘉宾对谈环节,吴琼从社会调查设计与数据管理的角度出发,对杨锋的报告进行了深入回应。她指出,大语言模型在处理非随机缺失数据方面具有一定潜力。例如,传统问卷常采用模块化设计,通过轮换模块以减轻受访者负担,但这一设计也不可避免地导致数据结构性缺失。若大语言模型能够有效补全这类缺失数据,将有助于提升调查数据的完整性,并在一定程度上节约成本、提高数据利用效率。

图片4.jpg

孙仲回应

孙仲则从算法的角度对大语言模型的性能问题进行了分析。他指出,当训练样本逐渐增加时,大语言模型可能会出现性能下降的现象。孙仲提醒研究者们需要密切关注模型对训练数据的“过拟合”和“记忆偏见”。他还提道,尽管大语言模型在数据补全方面展现出了巨大的潜力,但在某些情况下,其表现可能不及传统的机器学习模型。因此,在实际应用中,研究者需要根据具体的研究问题和数据特点,谨慎地选择合适的方法。

与会者交流讨论

在自由交流环节,与会师生就大语言模型数据准确性、大语言模型多次运行结果稳定性、发展各国本土特色的人工智能技术等议题与主讲人展开交流。

本次沙龙活动为数字与人文领域的交叉研究提供了重要平台。未来,“数据与社会”系列沙龙将持续关注技术与社会的前沿议题,打造思想交汇的共享空间。

本次活动中,社会科学部继续与勺园中餐厅合作,推出芒种节气特色美食,为与会师生提供了良好的交流环境。