传统方案为什么不行？

RNN系列的模型，并行计算能力很差。RNN并行计算的问题就出在这里，因为 T 时刻的计算依赖 T-1 时刻的隐层计算结果，而 T-1 时刻的计算依赖 T-2 时刻的隐层计算结果，如此下去就形成了所谓的序列依赖关系。

大模型基础（Transformer）

Encoder：编码器从所有输入中提取特征表示，注意编码器会参考整个上下文，然后提取特征表示
Decoder：解码器根据编码器的输出和其他输入生成目标序列，其他输入可能是通过其他模型生成的目标序列，所以可以说Decoder又对这个生成序列进行了优化。

Encoder会关注上下文信息，而Decoder只关注前文信息。

Transformer

模型结构

最底下的那个编码器接收的是嵌入向量，之后的编码器接收的是前一个编码器的输出

每个编码器可以分成两个子层——

编码器的输入首先会进入一个自注意力层，这个注意力层的作用是：当要编码某个特定的词汇的时候，它会关注句子中的其他词汇。之后会进行详细讲解。

自注意力层的输出会传递给一个前馈神经网络，进行非线性变换，增加模型的表达能力和学习能力。

一个解码器含有三个子层

多出来的这个自注意力层的作用是让解码器能够注意到输入句子中相关的部分（和seq2seq中的attention一样的作用）。

开始输入

输入一个句子翻译，整体流程是这样的——

首先需要把输入文本转换成Token，然后将每个Token通过词嵌入（embedding）转化为对应的向量。
将token转换成词嵌入向量是通过一个词嵌入矩阵完成的，通常也包括一个位置矩阵

Attention 注意力机制

BLEU（BiLingual Evaluation Understudy）算法：衡量翻译指标好坏，BLEU分数越高表明生成序列质量越好
- 传统模型：超过20个词后RNN模型BLEU分数开始下降
- 注意力机制这个东西对长距离生成序列有更好的效果

假设我们要翻译下边这句话：

”The animal didn’t cross the street because it was too tired”
这里it指的是什么？是street还是animal？人理解起来很容易，但是对算法来讲就不那么容易了。
当模型处理it这个词的时候，自注意力会让it和animal关联起来。

当模型编码每个位置上的单词的时候，自注意力的作用就是：看一看输入句子中其他位置的单词，试图寻找一种对当前单词更好的编码方式。

自注意力如何计算

第一步：对编码器的每个输入向量都计算三个向量

就是对每个输入向量都算一个query、key、value向量。

q(Query) ：和其他单词进行匹配，计算当前单词或字与其他的单词或字之间的关联或者关系；$q=W^q\times X_1$
K(Key) 的含义则是被用来和 q 进行匹配，也可理解为单词或者字的关键信息。$k=W^k\times X_1$
Value代表Key对应的元素要输出的内容，与Key一一对应。$v=W^v\times X_1$

数据库例子：Q是一组查询语句，V是数据库，里面有若干数据项。如何查询？这既要考虑每个q本身，又要考虑V中每一个项。如果用K表示一组钥匙，这组钥匙每一把对应V中每一项，代表了V中每一项的某种查询特征
- 两个向量的点乘可以表示两个向量的相似度，越相似方向越趋于一致，a点乘b数值越大。
- 公式的$QK^{T}$就是要查询的内容Q和钥匙的双向相似度匹配。