PyTorch教程11.6之自注意力和位置编码-电子发烧友网

在深度学习中，我们经常使用 CNN 或 RNN 对序列进行编码。现在考虑到注意力机制，想象一下将一系列标记输入注意力机制，这样在每个步骤中，每个标记都有自己的查询、键和值。在这里，当在下一层计算令牌表示的值时，令牌可以（通过其查询向量）参与每个其他令牌（基于它们的键向量进行匹配）。使用完整的查询键兼容性分数集，我们可以通过在其他标记上构建适当的加权和来为每个标记计算表示。因为每个标记都关注另一个标记（不同于解码器步骤关注编码器步骤的情况），这种架构通常被描述为自注意力模型（Lin等。, 2017 年， Vaswani等人。, 2017 )，以及其他地方描述的内部注意力模型 ( Cheng et al. , 2016 , Parikh et al. , 2016 , Paulus et al. , 2017 )。在本节中，我们将讨论使用自注意力的序列编码，包括使用序列顺序的附加信息。

						import math
import torch
from torch import nn
from d2l import torch as d2l

						 

						import math
from mxnet import autograd, np, npx
from mxnet.gluon import nn
from d2l import mxnet as d2l

npx.set_np()

						 

						import jax
from flax import linen as nn
from jax import numpy as jnp
from d2l import jax as d2l

						 

						No GPU/TPU found, falling back to CPU. (Set TF_CPP_MIN_LOG_LEVEL=0 and rerun for more info.)

					

						import numpy as np
import tensorflow as tf
from d2l import tensorflow as d2l

						 

11.6.1。自注意力

给定一系列输入标记 x1,…,xn任何地方 xi∈Rd(1≤i≤n), 它的self-attention输出一个相同长度的序列 y1,…,yn，在哪里

(11.6.1)yi=f(xi,(x1,x1),…,(xn,xn))∈Rd

根据 (11.1.1)中attention pooling的定义。使用多头注意力，以下代码片段计算具有形状（批量大小、时间步数或标记中的序列长度， d). 输出张量具有相同的形状。

							num_hiddens, num_heads = 100, 5
attention = d2l.MultiHeadAttention(num_hiddens, num_heads, 0.5)
batch_size, num_queries, valid_lens = 2, 4, torch.tensor([3, 2])
X = torch.ones((batch_size, num_queries, num_hiddens))
d2l.check_shape(attention(X, X, X, valid_lens),
        (batch_size, num_queries, num_hiddens))

							 

							num_hiddens, num_heads = 100, 5
attention = d2l.MultiHeadAttention(num_hiddens, num_heads, 0.5)
attention.initialize()

batch_size, num_queries, valid_lens = 2, 4, np.array([3, 2])
X = np.ones((batch_size, num_queries, num_hiddens))
d2l.check_shape(attention(X, X, X, valid_lens),
        (batch_size, num_queries, num_hiddens))

							 

							num_hiddens, num_heads = 100, 5
attention = d2l.MultiHeadAttention(num_hiddens, num_heads, 0.5)

batch_size, num_queries, valid_lens = 2, 4, jnp.array([3, 2])
X = jnp.ones((batch_size, num_queries, num_hiddens))
d2l.check_shape(attention.init_with_output(d2l.get_key(), X, X, X, valid_lens,
                      training=False)[0][0],
        (batch_size, num_queries, num_hiddens))

							 

							num_hiddens, num_heads = 100, 5
attention = d2l.MultiHeadAttention(num_hiddens, num_hiddens, num_hiddens,
                  num_hiddens, num_heads, 0.5)

batch_size, num_queries, valid_lens = 2, 4, tf.constant([3, 2])
X = tf.ones((batch_size, num_queries, num_hiddens))
d2l.check_shape(attention(X, X, X, valid_lens, training=False),
        (batch_size, num_queries, num_hiddens))

							 

11.6.2。比较 CNN、RNN 和自注意力

让我们比较一下映射一系列的架构n标记到另一个等长序列，其中每个输入或输出标记由一个d维向量。具体来说，我们将考虑 CNN、RNN 和自注意力。我们将比较它们的计算复杂度、顺序操作和最大路径长度。请注意，顺序操作会阻止并行计算，而序列位置的任意组合之间的较短路径可以更容易地学习序列内的远程依赖关系（Hochreiter等人，2001 年）。

https://file.elecfans.com/web2/M00/AA/44/pYYBAGR9OB2AYW27AAGoqLUwK-4826.svg

图 11.6.1比较 CNN（省略填充标记）、RNN 和自注意力架构。

考虑一个卷积层，其内核大小为k. 我们将在后面的章节中提供有关使用 CNN 进行序列处理的更多详细信息。现在，我们只需要知道，因为序列长度是n，输入和输出通道的数量都是 d, 卷积层的计算复杂度为 O(knd2). 如图11.6.1 所示，CNN 是分层的，因此有O(1) 顺序操作和最大路径长度是

PyTorch教程11.6之自注意力和位置编码

11.6.1。自注意力

11.6.2。比较 CNN、RNN 和自注意力

PyTorch教程11.4之Bahdanau注意力机制

PyTorch教程11.5之多头注意力

PyTorch教程16.5之自然语言推理：使用注意力

如何用番茄钟提高注意力

基于非对称注意力机制残差网络的图像检测

基于注意力机制的新闻文本分类模型

基于注意力机制的跨域服装检索方法综述

基于多通道自注意力机制的电子病历架构

基于注意力机制等的社交网络热度预测模型

基于多层注意力机制的回指消解算法综述

基于密集注意力网络的图像自动分割算法

基于情感评分的分层注意力网络框架

结合注意力机制的跨域服装检索方法

基于循环卷积注意力模型的文本情感分类方法

联合评论文本层级注意力和外积的推荐方法

LSTM和注意力机制相结合的机器学习模型

基于多层CNN和注意力机制的文本摘要模型

一种上下文感知与层级注意力网络的文档分类方法

基于深度图注意力卷积CNN的三维模型识别方法

基于层次注意力机制的多模态围堵情感识别模型

基于语音、字形和语义的层次注意力神经网络模型

融合双层多头自注意力与CNN的回归模型

一种注意力增强的自然语言推理模型aESIM

一种全新的多阶段注意力答案选取模型

基于空间/通道注意力机制的化学结构图像识别方法

基于注意力机制的狭小空间人群拥挤度分析方法

基于异质注意力的循环神经网络模型

基于注意力机制的深度学习模型AT-DPCNN

基于注意力机制的深度兴趣网络点击率模型

如何使用多注意力长短时记忆进行实体属性的情感分析

基于Transformer的目标检测算法难点

基于Transformer的目标检测算法的3个难点

详细介绍​注意力机制中的掩码

如何入门面向自动驾驶领域的视觉Transformer？

图解transformer中的自注意力机制

PyTorch教程-16.5。自然语言推理：使用注意力

PyTorch教程-11.5。多头注意力

PyTorch教程-11.6. 自注意力和位置编码

PyTorch教程-11.4. Bahdanau 注意力机制

基于YOLOv5s基础上实现五种视觉注意力模块的改进

详解五种即插即用的视觉注意力模块

基于超大感受野注意力的超分辨率模型

华南理工开源VISTA：双跨视角空间注意力机制实现3D目标检测SOTA

简述位置编码在注意机制中的作用

如何用上下文注意力来进行深度图像修复

研究人员使用电子游戏识别儿童的注意力缺陷障碍

基于选择机制的自注意力网络模型

一种自监督同变注意力机制，利用自监督方法来弥补监督信号差异

注意力机制或将是未来机器学习的核心要素

BERT的自注意力模式

5种使互联网分散注意力的技巧

循环神经网络卷积神经网络注意力文本生成变换器编码器序列表征

注意力机制的诞生、方法及几种常见模型

深度分析NLP中的注意力机制

浅谈自然语言处理中的注意力机制

循环神经网络注意力的模拟实现

一种通过引入硬注意力机制来引导学习视觉回答任务的研究

北大研究者创建了一种注意力生成对抗网络

DeepMind为视觉问题回答提出了一种新的硬注意力机制

基于注意力机制的用户行为建模框架及其在推荐领域的应用

下载排行榜

无刷电机控制方案设计合作

美的超薄电磁炉TM-S1-09B主板原理图

舒尔SLX4无线话筒接收机原理图:二次变频超外差部分

TPS55288布局指南

i.MX Linux开发实战指南—基于野火i.MX系列开发板

1T3872A芯片为核心的电动自行车充电器电路图纸

详细介绍注意力机制中的掩码