首页 >> 科学研究 >> 科研进展 >> 正文

人工智能研究院朱松纯、朱毅鑫教授团队在图形符号系统的涌现与演化方向取得进展

信息来源:     发布时间:2022-12-30     浏览量:

近日,人工智能研究院朱松纯、朱毅鑫教授团队在NeurIPS 2022发表论文“Emergent Graphical Conventions in a Visual Communication Game”。论文工作利用你画我猜游戏,第一次从计算上涌现并演化了新型图形符号系统,同时提出了三个图形符号属性:象形性、符号性和语义性。实验结果表明,玩家双方的合作训练、接收者允许提前终止游戏与二者进行交互式的时序沟通能够鼓励新形成的图形符号系统在具有较高符号性的同时,保留象形性和语义性。这项工作为研究人类语言与文字的起源与演化提供了一套全新的计算框架与思路。

认知科学研究认为文字系统的形成是一个从象形图标到抽象符号的过程[1]。如图所示,人类祖先在描述太阳时,会使用草图来尽可能贴近自然中太阳的样子[2]。在这个过程中,人们逐渐将视觉概念和象形图标建立起联系。在接下来的沟通中,每当人们需要描述太阳,都会重复使用这些图标。为了提高沟通效率,这些图标会变得简单而抽象,逐渐形成我们今天的象形文字系统。

研究过程中,认知科学家使用“你画我猜”游戏来模拟这个过程[3]。人们在游戏初始阶段必须使用草图进行沟通,随着游戏进行,人们会不断见到之前已经沟通过的内容,最后实验结果表明,人们会在不断地沟通迭代之后,形成两个人之间的新的符号系统。如下图中,在表述英国议会(Parliament)时,玩家首先会详细画出议会的场所和国家旗帜,在通过磨合和精炼之后,会直接表示为曲线和圆。同样在表述歌剧(Soap Opera)时,草图首先具象地描述了“Soap”和“Opera”,简化之后变成了正方形和一条线。 这篇论文通过训练两个智能体玩“你画我猜”游戏,来模拟图形符号系统的形成过程,探索准确与效率在抽象文字形成中的调和与平衡,并验证符合人类图形符号系统形成的必要环境因素。

如图所示,我们将“你画我猜”描述为一个多智能体时序决策游戏,每轮游戏中都有两个玩家,一个是发送者,能够观察到这次要沟通的目标(一个常见视觉概念,如兔子、杯子),一个是接收者,可以观察到一组图片(其中一张图片符合要沟通的类别),需要通过发送者的画来猜出哪张图是这次游戏要沟通的目标。在每个时间步长,发送者会基于目标继续完成画布上的画;接收者观察到新添加的笔画后,决定请求发送者继续画画,还是作出判断。当接收者作出判断,或者等待时间超出游戏的最大步长,该轮游戏终止。游戏终止后,双方会得到+1/-1的奖励/惩罚,为了鼓励玩家提高沟通效率,奖励/惩罚同时会乘上根据总游戏步长得到的衰减系数γ,最终两玩家将得到γt/-γt作为回报。发送者和接收者的训练目标是最大化最终的游戏得分。同时我们通过资格迹[4]来平滑整个收敛过程。

我们探索以下环境因素对符号系统演化的影响:

1)是否合作训练;

2)接收者是否能选择终止游戏;

3)二者是否进行交互式的时序沟通。

固定每个因素,我们设计了一个实验组complete和四个对照组:

1)sender-fixed:发送者的模型参数不更新,控制合作训练因素;

2)max-step: 接收者不能提前结束游戏,控制接收者能够选择终止游戏因素;

3)one-step: 每次两个玩家只能沟通一个时间步长,控制交互式的时序沟通因素;

4)retrieve:发送者的模型参数不更新,同时接收者不能提前结束游戏,等效双方没有沟通的情况。

由于第四种设置没有沟通,草图不会发生简化,这种设置下产生的草图具有最高的象形性,我们将它的实验结果设置为沟通能达到的上界。

我们同时展示了绘画在训练过程中的变化(每张图片从左到右为迭代次数从0到30,000的草图)。可以看出,草图经历了由复杂变简单的过程,同时对于同一个类别的绘画,发送者能够一致地强调类别中最明显的特征。如图中草图会强调兔子的耳朵;即使图片中长颈鹿是不同的姿态,尤其在第三幅图中,长颈鹿弯下脖子,但草图中依然会强调长颈鹿竖直的长脖子。

沟通成功率和沟通效率

我们首先通过沟通成功率和沟通效率来验证所设计的训练框架的有效性。

1. 沟通成功率:我们假设当沟通准确率大于80%时,智能体间形成了新的沟通系统。如图(a)所示,除one-step以外,智能体在其他实验设置下都形成了新的沟通系统,这表明了训练框架能够使智能体成功沟通,同时说明了交互式的时序沟通因素的重要性。

2. 沟通长度:人类实验结果中,在反复沟通后,绘图所需笔画数会越来越少。如图(b)所示,对于能够改变沟通长度的设置(complete, sender-fixed),沟通长度会逐渐下降,这表示设计的隐性奖励和惩罚能够促使智能体减少沟通长度来提高沟通效率。

3. 准确vs效率:智能体沟通长度减少可能有两个原因:一是为了在保证准确率的情况下提高沟通效率,二是在长沟通中学习困难因而向短沟通收敛。其中第一个才是符合预想的原因。在训练过程中,测试接收者对发送者画的笔画数为1、3、5、7的草图的判断准确率。如图(c)cumulative的测试结果(使用REINFORCE训练作为比较基准),笔画越多的草图准确率越低,说明沟通长度减少是因为无法在较长的沟通中学习更新。相比较之下,提出的训练框架,笔画越多的草图准确率首先达到最高(保证准确率),笔画较少的草图的准确率接着也逐渐上升到笔画数为7的准确率(降低笔画数来提高沟通效率),表示智能体在积极平衡准确率和效率。

结果分析:三个属性

为了比较新形成的沟通系统的优劣,我们设计了三个图形符号系统的属性和其对应的衡量方法。

象形性(Iconicity):我们定义为在一个映射空间上,草图临近它对应的自然图片。如图1所示,在Ψ空间,绘画SA的距离与它对应的图片ΙA较近,与其他图片的距离较远。为了衡量象形性,我们测试了各个实验设置下智能体对没有见过的图片或类别的沟通准确率。如表格所示,complete和sender-fixed能够根据对沟通内容的熟悉程度,来控制沟通的长度,当遇到陌生的图片和类别时,智能体能够通过增加沟通长度来提高绘画的象形性。

符号性(Symbolicity):我们定义为属于同一个类别的草图能够在一个高维映射空间上比较容易得区别开。如图2所示,不同的类别之间有清晰的界限。为了衡量符号性,我们对已经训练好的VGGNet[5]进行微调,用于分类属于不同类别的绘画。如条形图所示,complete设置下形成的符号系统具有最高的一致性。

语义性(Semanticity):我们定义为草图在高维度映射空间的拓扑结构与它对应的图像的拓扑结构相似。如图3所示,语义相近的概念如猫和狗,草图和图像的距离都相对较近,杯子距离他们较远。我们首先用word2vec[6]将每个类别的名字投射到向量空间作为特征A,同时用在属性2中训练好的VGG将最终演化出的草图投射到向量空间作为特征B。我们计算所有特征B中能够组成的向量距离和所有特征A中的向量距离之间的相关系数。从表格结果中可以看出,complete设置能够最好的保留语义性。我们同时使用t-SNE[7]将complete的特征B投射到一个二维平面,可以看出各类别间的边界非常清晰,同时语义相似的类别如牛、鹿、马互相临近,同时距离汉堡、苹果等类别较远。

在这项工作中,研究人员利用你画我猜游戏模拟了新的图形符号系统的形成过程。研究人员验证了训练框架的有效性,同时提出了三个图形符号属性——象形性、符号性和语义性。实验结果表明,玩家双方的合作训练、接收者允许提前终止游戏与二者进行交互式的时序沟通能够鼓励新形成的图形符号系统在具有较高符号性的同时,保留象形性和语义性。研究人员希望这项工作能够为研究象形文字的演化提供思路。

参考文献:

[1] Fay, N., Ellison, M., and Garrod, S. (2014). Iconicity: From sign to system in human communication and language. Pragmatics & Cognition, 22(2):244–2633.

[2] Hong, Y., Si, Z., Hu, W., Zhu, S. C., & Wu, Y. N. (2014). Unsupervised learning of compositional sparse code for natural image representation. Quarterly of Applied Mathematics, 373-406.

[3] Fay, N., Garrod, S., Roberts, L., and Swoboda, N. (2010). The interactive evolution of human communication systems. Cognitive Science, 34(3):351–386.

[4] Sutton, R. S. and Barto, A. G. (2018). Reinforcement learning: An introduction. MIT press.

[5] Simonyan, K. and Zisserman, A. (2015). Very deep convolutional networks for large-scale image recognition. In International Conference on Learning Representations (ICLR).

[6] Mikolov, T., Chen, K., Corrado, G., and Dean, J. (2013). Efficient estimation of word representations in vector space. arXiv preprint arXiv:1301.3781.

[7] Van der Maaten, L. and Hinton, G. (2008). Visualizing data using t-sne. Journal of Machine Learning Research (JMLR), 9(11).