接上一篇
P9 P11
ViT中的Tranformer编码器
n Tranformer 编码器由 multi-head self-attention ( MSA )和 MLP 块的层组成。 n 在每个块之前应用 Layernorm ( LN ),在每个块之后应用残差连接。 n MLP 包含具有 GELU 非线性的两全连接层。Vision Transformer(ViT)
n 模型变种: ViT 的配置基于 BERT 所使用的配置,如下表, BERT 采用了“ Base” 和“ Large” 模型,并添加了较大的“ Huge” 模型。 n 经过大数据集的预训练后,性能也超过了当前 CNN 的一些 SOTA 结果 经过大数据集的预训练后,性能也超过了当前 CNN 的一些 SOTA 结果如上BEiT
n 实验证明 vision Transformer 需要远比 CNN 更多的数据来训练。为了解决需要大量数据来训练的这个问题,自监督式的预训练是一个很有前途的方式,它可以利用大规模的图像数据。 n BEiT 的形式很接近 BERT ,只不过用了一个 dVAE 对 patch 进行离散化(就像 NLP 的 token 也是离散化的)。 n dVAE 需要先在语料上训练出一个 encoder 和一个 decoder , encoder 用来当作 tokenizer ,把图像离散化(对应每一个 patch ),然后给 Transformer 输入 patch ,预测离散后的图像,再用 decoder 还原。未完,下一篇继续……