PyTorch教程11.4之Bahdanau注意力机制-电子发烧友网

当我们在10.7 节遇到机器翻译时，我们设计了一个基于两个 RNN 的序列到序列 (seq2seq) 学习的编码器-解码器架构 ( Sutskever et al. , 2014 )。具体来说，RNN 编码器将可变长度序列转换为固定形状的上下文变量。然后，RNN 解码器根据生成的标记和上下文变量逐个标记地生成输出（目标）序列标记。

回想一下我们在下面重印的图 10.7.2 （图 11.4.1）以及一些额外的细节。通常，在 RNN 中，有关源序列的所有相关信息都由编码器转换为某种内部固定维状态表示。正是这种状态被解码器用作生成翻译序列的完整和唯一的信息源。换句话说，seq2seq 机制将中间状态视为可能作为输入的任何字符串的充分统计。

https://file.elecfans.com/web2/M00/A9/C9/poYBAGR9N_qACEJlAAF4rEvQWMo465.svg

图 11.4.1序列到序列模型。编码器生成的状态是编码器和解码器之间唯一共享的信息。

虽然这对于短序列来说是相当合理的，但很明显这对于长序列来说是不可行的，比如一本书的章节，甚至只是一个很长的句子。毕竟，一段时间后，中间表示中将根本没有足够的“空间”来存储源序列中所有重要的内容。因此，解码器将无法翻译又长又复杂的句子。第一个遇到的人是格雷夫斯 ( 2013 )当他们试图设计一个 RNN 来生成手写文本时。由于源文本具有任意长度，他们设计了一个可区分的注意力模型来将文本字符与更长的笔迹对齐，其中对齐仅在一个方向上移动。这反过来又利用了语音识别中的解码算法，例如隐马尔可夫模型（Rabiner 和 Juang，1993 年）。

受到学习对齐的想法的启发， Bahdanau等人。( 2014 )提出了一种没有单向对齐限制的可区分注意力模型。在预测标记时，如果并非所有输入标记都相关，则模型仅对齐（或关注）输入序列中被认为与当前预测相关的部分。然后，这用于在生成下一个令牌之前更新当前状态。虽然在其描述中相当无伤大雅，但这种Bahdanau 注意力机制可以说已经成为过去十年深度学习中最有影响力的想法之一，并催生了 Transformers （Vaswani等人，2017 年）以及许多相关的新架构。

						import torch
from torch import nn
from d2l import torch as d2l

						 

						from mxnet import init, np, npx
from mxnet.gluon import nn, rnn
from d2l import mxnet as d2l

npx.set_np()

						import jax
from flax import linen as nn
from jax import numpy as jnp
from d2l import jax as d2l

						 

						import tensorflow as tf
from d2l import tensorflow as d2l

11.4.1。模型

我们遵循第 10.7 节的 seq2seq 架构引入的符号，特别是(10.7.3)。关键思想是，而不是保持状态，即上下文变量c将源句子总结为固定的，我们动态更新它，作为原始文本（编码器隐藏状态）的函数ht) 和已经生成的文本（解码器隐藏状态st′−1). 这产生 ct′, 在任何解码时间步后更新 t′. 假设输入序列的长度T. 在这种情况下，上下文变量是注意力池的输出：

(11.4.1)ct′=∑t=1Tα(st′−1,ht)ht.

我们用了st′−1作为查询，和 ht作为键和值。注意 ct′然后用于生成状态 st′并生成一个新令牌（参见 (10.7.3)）。特别是注意力权重 α使用由 ( 11.3.7 )定义的附加注意评分函数按照 (11.3.3)计算。这种使用注意力的 RNN 编码器-解码器架构如图 11.4.2所示。请注意，后来对该模型进行了修改，例如在解码器中包含已经生成的标记作为进一步的上下文（即，注意力总和确实停止在T而是它继续进行t′−1). 例如，参见Chan等人。( 2015 )描述了这种应用于语音识别的策略。

https://file.elecfans.com/web2/M00/AA/44/pYYBAGR9N_2AIf3lAAG83XwjOJ8743.svg

图 11.4.2具有 Bahdanau 注意机制的 RNN 编码器-解码器模型中的层。

11.4.2。用注意力定义解码器

要实现带有注意力的 RNN 编码器-解码器，我们只需要重新定义解码器（从注意力函数中省略生成的符号可以简化设计）。让我们通过定义一个意料之中的命名类来开始具有注意力的解码器的基本接口 AttentionDecoder。

							class AttentionDecoder(d2l.Decoder): #@save
  """The base attention-based decoder interface."""
  def __init__(self):
    super().__init__()

  @property
  def attention_weights(self):
    raise NotImplementedError

							 

							class AttentionDecoder(d2l.Decoder): #@save
  """The base attention-based decoder interface."""
  def __init__(self):
    super().__init__()

  @property
  def attention_weights(self):
    raise NotImplementedError

							 

							class AttentionDecoder(d2l.Decoder): #@save
  """The base attention-based decoder interface."""
  def __init__(self):
    super().__init__()

  @property
  def attention_weights(self):
    raise NotImplementedError

							 

我们需要在Seq2SeqAttentionDecoder 类中实现 RNN 解码器。解码器的状态初始化为（i）编码器最后一层在所有时间步的隐藏状态，用作注意力的键和值；(ii) 编码器在最后一步的所有层的隐藏状态。这用于初始化解码器的隐藏状态；(iii) 编码器的有效长度，以排除注意力池中的填充标记。在每个解码时间步，解码器最后一层的隐藏状态，在前一个时间步获得，用作注意机制的查询。注意机制的输出和输入嵌入都被连接起来作为 RNN 解码器的输入。

							class Seq2SeqAttentionDecoder(AttentionDecoder):
  def __init__(self, vocab_size, embed_size<
						

PyTorch教程11.4之Bahdanau注意力机制

11.4.1。模型

11.4.2。用注意力定义解码器

PyTorch教程11.6之自注意力和位置编码

PyTorch教程11.5之多头注意力

PyTorch教程16.5之自然语言推理：使用注意力

计算机视觉中的注意力机制

基于非对称注意力机制残差网络的图像检测

基于注意力机制的新闻文本分类模型

基于注意力机制的跨域服装检索方法综述

基于多通道自注意力机制的电子病历架构

基于注意力机制等的社交网络热度预测模型

基于多层注意力机制的回指消解算法综述

基于密集层和注意力机制的快速场景语义分割方法

基于情感评分的分层注意力网络框架

结合注意力机制的跨域服装检索方法

基于层次注意力机制的多任务疾病进展模型

基于注意力机制和本体的远程贾璐关系抽取模型

联合评论文本层级注意力和外积的推荐方法

LSTM和注意力机制相结合的机器学习模型

结合注意力机制的改进深度学习光流网络

基于多层CNN和注意力机制的文本摘要模型

一种上下文感知与层级注意力网络的文档分类方法

基于层次注意力机制的多模态围堵情感识别模型

基于语音、字形和语义的层次注意力神经网络模型

融合双层多头自注意力与CNN的回归模型

一种注意力增强的自然语言推理模型aESIM

基于通道注意力机制的SSD目标检测算法

基于空间/通道注意力机制的化学结构图像识别方法

基于注意力机制的狭小空间人群拥挤度分析方法

基于注意力机制和多尺度特征融合的网络结构

基于注意力机制的深度学习模型AT-DPCNN

基于注意力机制的深度兴趣网络点击率模型

全新近似注意力机制HyperAttention：对长上下文友好、LLM推理提速50%

详细介绍​注意力机制中的掩码

图解transformer中的自注意力机制

PyTorch教程-16.5。自然语言推理：使用注意力

PyTorch教程-11.5。多头注意力

PyTorch教程-11.6. 自注意力和位置编码

PyTorch教程-11.4. Bahdanau 注意力机制

基于YOLOv5s基础上实现五种视觉注意力模块的改进

详解五种即插即用的视觉注意力模块

基于超大感受野注意力的超分辨率模型

PyTorch 的 Autograd 机制和使用

华南理工开源VISTA：双跨视角空间注意力机制实现3D目标检测SOTA

简述位置编码在注意机制中的作用

如何用上下文注意力来进行深度图像修复

研究人员使用电子游戏识别儿童的注意力缺陷障碍

一篇非常新的介绍PyTorch内部机制的文章

基于选择机制的自注意力网络模型

一种自监督同变注意力机制，利用自监督方法来弥补监督信号差异

注意力机制或将是未来机器学习的核心要素

5种使互联网分散注意力的技巧

循环神经网络卷积神经网络注意力文本生成变换器编码器序列表征

注意力机制的诞生、方法及几种常见模型

深度分析NLP中的注意力机制

浅谈自然语言处理中的注意力机制

循环神经网络注意力的模拟实现

一种通过引入硬注意力机制来引导学习视觉回答任务的研究

北大研究者创建了一种注意力生成对抗网络

DeepMind为视觉问题回答提出了一种新的硬注意力机制

AR/VR炫酷新媒介技术，具有互动体验，营销开始争夺用户的注意力

基于注意力机制的用户行为建模框架及其在推荐领域的应用

下载排行榜

美的超薄电磁炉TM-S1-09B主板原理图

舒尔SLX4无线话筒接收机原理图:二次变频超外差部分

TPS55288布局指南

无刷电机控制方案设计合作

雷达的基本分类方法

1T3872A芯片为核心的电动自行车充电器电路图纸

详细介绍注意力机制中的掩码