Transformer中的细节

1.Cross self attention 1. 第一个就是这个地方,a56爆大奖在线娱乐们将编码器的输出看成key和value,然后将第一个多头注意力层输出的值看成query.其实这里可以看成Cross Attention,而不是self Attention。Cross Attention会用解码器生成的q来查询
posted @ 2023-09-20 16:49  哎呦哎(iui)  阅读(124)  评论(0编辑  收藏  举报