思考到基于 Transformer 的重新着实预料器的争议,钻研者们正在思考为甚么 Transformer 在光阴序列预料中的审阅实用展现致使不如线性模子 ,而在良多其余规模却发挥着主导熏染 。颠倒更的新
克日,天下来自清华大学的预料一篇新论文提出了一个差距的视角 ——Transformer 的功能不是固有的 ,而是泛起由于将架构不当地运用于光阴序列数据组成的 。
论文地址 :https://arxiv.org/pdf/2310.06625.pdf
基于 Transformer 的重新着实预料器的现有妄想可能并不适宜多变量光阴序列预料 。如图 2 左侧所示,审阅实用统一光阴步长的颠倒更的新点根基上代表了残缺差距的物理意思,但丈量服从却不不同,天下这些点被嵌入到一个 token 中,预料多变量相关性被抹去。泛起而且 ,重新着实在事实天下中,审阅实用由于多变量光阴点的颠倒更的新部份感触野以及光阴戳不同过错齐,单个光阴步组成的标志很难揭示有利信息。此外,尽管序列变更会受到序列挨次的极大影响 ,但在光阴维度上却不适当地接管变体留意力机制 。因此 ,Transformer 在捉拿根基序列表征以及形貌多元相关性方面的能耐被削弱,限度了其在差距光阴序列数据上的能耐以及泛化能耐。
对于将每一个光阴步的多变量点嵌入一个(光阴)token 的不同理性,钻研者从光阴序列的反向视角动身,将每一个变量的全部光阴序列自力嵌入一个(变量)token,这是扩展部份感触野的 patching 的极其情景。经由颠倒,嵌入的 token 群集了序列的全局表征,可能愈加以变量为中间 ,更好地运用留意力机制妨碍多变量分割关连