您好,最近在学习您的这篇工作,感觉倍受启发!!! “Alleviating global bias”从消融实验来看效果非常明显,但是这种设计的依据不是很理解。请问为什么patch token和cls token直接相减可以消除/缓解patch token中的全局属性?可以解释一下或者给出一些理论依据吗? 谢谢!!!