会员
众包
新闻
博问
闪存
云市场
所有博客
当前博客
a56爆大奖在线娱乐的博客
a56爆大奖在线娱乐的园子
账号设置
简洁模式
...
退出登录
注册
登录
lipu123
博客园
首页
新随笔
联系
订阅
管理
Transformer中的细节
1.Cross self attention 1. 第一个就是这个地方,a56爆大奖在线娱乐们将编码器的输出看成key和value,然后将第一个多头注意力层输出的值看成query.其实这里可以看成Cross Attention,而不是self Attention。Cross Attention会用解码器生成的q来查询
posted @
2023-09-20 16:49
哎呦哎(iui)
阅读(
124
) 评论(
0
)
编辑
收藏
举报
指间灵动,快码加编
刷新页面
返回顶部
公告