注意力机制作用被高估了?苹果等机构新研究:把注意力矩阵替换成常数矩阵后,
要说《变形金刚》的核心亮点,当然是注意力机制。
可是现在,一项新的研究突然提出了一个有些爆炸性的观点:
注意机制对于预训练变形金刚有多重要,需要打个问号。
来自希伯来大学,艾伦人工智能研究所,苹果公司和华盛顿大学的研究人员提出了一种新的方法来衡量预训练变压器模型中注意力机制的重要性。
结果表明,即使去掉注意机制,某些变压器的性能变化也不大,甚至与原模型相差不到十分之一!
这个结论让很多人惊讶,也有网友调侃:
你亵渎了这个领域的神!
那么,如何判断注意机制对变形金刚模型的重要性呢。
把注意力转向一个常数矩阵。
这种新的测试方法叫做PAPA,全称是预训练语言模型注意机制的检测与分析。
PAPA采用的方法是将预训练语言模型中依赖输入的注意矩阵替换为常数矩阵。
如下图所示,我们熟悉的关注机制是通过Q和K矩阵计算关注权重,然后作用于V,得到整体权重和输出。
现在,Q和K的部分直接用常数矩阵C代替:
常数矩阵c计算如下:
然后用6个下游任务对这些模型进行测试,比较PAPA前后模型的性能差距。
为了更好地检验注意机制的重要性,模型的注意矩阵并不是一次性完全用一个常数矩阵代替,而是逐渐减少注意头的数量。
如下图所示,研究中使用了BERT—BASE,RoBERTa—BASE和DeBERTa—BASE,其中Y轴代表性能,X轴代表与原始相比注意力头的下降:
然后,将BERT—LARGE,RoBERTa—LARGE和DeBERTa—LARGE用作实验:
通过对比结果,研究人员发现了一些有趣的现象:
首先,用常数矩阵代替一半的注意力矩阵对模型的性能影响不大,甚至在某些情况下可能会导致性能的提高。
其次,即使关注头数减少到零,平均性能也会下降8%,与原模型相比不超过20%。
人们认为,这一现象表明,预训练语言模型并不那么依赖于注意机制。
模型的性能越好,就越依赖于注意机制。
可是,即使在预先训练的变压器模型中,性能也不完全相同。
如下图所示,其中Y轴代表每个模型的平均性能,X轴代表当所有关注矩阵替换为常数矩阵时模型性能的相对降低分数:
可以看出,以前的模型性能越好,用常数矩阵代替注意力矩阵的损失就越高。
这说明模型本身的性能越好,利用注意机制的能力就越强。
对于这个研究,有网友觉得很棒:
听起来很酷现在很多架构过于关注各种计算和性能任务,却忽略了是什么改变了模型
但也有网友认为,单纯从数据上无法判断架构变化是否重要。
例如,在某些情况下,注意机制带来的隐藏空间中数据点的振幅变化仅为2—3%:
这种情况下还不够重要吗不一定
如何看待《变形金刚》中注意力机制的重要性。
论文地址:
参考链接: