全球自然语言处理领域顶级会议EMNLP2023近日在新加坡召开。北京大学计算机学院语言所团队和腾讯微信AI团队合作撰写的论文“Label Words are Anchors: An Information Flow Perspective for Understanding In-Context Learning”获得EMNLP最佳长论文奖(Best Paper Award),是EMNLP会议开办以来中国大陆首篇Best Long Paper。EMNLP全称Conference on Empirical Methods in Natural Language Processing,Google Scholar h5-index为176,是自然语言处理领域最具影响力的国际学术会议之一。EMNLP 2023于12月6日~10日于新加坡召开,共收到投稿4909篇,主会录用论文1047篇,录用率21.3%。获奖论文由最佳论文奖委员会从领域主席和资深领域主席提名的107篇候选中评选产生。
(王乐安同学和李磊同学到大会现场领奖)
该论文由北京大学计算机学院语言所孙栩老师和腾讯微信周杰、孟凡东合作指导,作者分别是Lean Wang, Lei Li, Damai Dai, Deli Chen, Hao Zhou, Fandong Meng, Jie Zhou and Xu Sun,其中4位作者来自计算机学院语言所,4位作者来自微信AI。特别要祝贺第一作者王乐安同学,他以北京大学智能系第一名的成绩推免到计算语言所孙栩老师处攻读直博,目前为博士一年级。
本论文的研究内容如下:本文从信息流动的角度审视了上下文学习(In-context Learning),提出并验证了“标签词在上下文学习中起锚点作用”的假设。根据这个假设,在模型的浅层,大语言模型(LLMs)会将示例文本中的信息汇总到相应示例的标签上,而在模型的深层,大语言模型会进一步从这些标签中提取信息来完成最终预测。论文设计了测量显著性(saliency)的实验、阻断注意力的实验、测量注意力大小与分类结果相关性的实验,以验证这一猜想。进一步,基于这一假设,提出了三个潜在应用:锚点重加权(Anchor Re-Weighting)、仅含锚点的上下文压缩(Anchor-Only Context Compression)和基于锚点距离的错误诊断(Anchor Distances for Error Diagnosis)。这些应用展示了本文的分析结论的应用潜力,可以提高上下文学习的性能、效率,并在一定程度上解释上下文学习中出现的错误。