1500字范文 > ai培训师讲师叶梓：计算机视觉领域的自监督学习模型——MAE-5

ai培训师讲师叶梓：计算机视觉领域的自监督学习模型——MAE-5

时间：2020-07-03 23:03:47

接上一篇

P9 P11

ViT中的Tranformer编码器

n Tranformer 编码器由 multi-head self-attention （ MSA ）和 MLP 块的层组成。 n 在每个块之前应用 Layernorm （ LN ），在每个块之后应用残差连接。 n MLP 包含具有 GELU 非线性的两全连接层。

Vision Transformer（ViT）

n 模型变种： ViT 的配置基于 BERT 所使用的配置，如下表， BERT 采用了“ Base” 和“ Large” 模型，并添加了较大的“ Huge” 模型。 n 经过大数据集的预训练后，性能也超过了当前 CNN 的一些 SOTA 结果经过大数据集的预训练后，性能也超过了当前 CNN 的一些 SOTA 结果如上

BEiT

n 实验证明 vision Transformer 需要远比 CNN 更多的数据来训练。为了解决需要大量数据来训练的这个问题，自监督式的预训练是一个很有前途的方式，它可以利用大规模的图像数据。 n BEiT 的形式很接近 BERT ，只不过用了一个 dVAE 对 patch 进行离散化（就像 NLP 的 token 也是离散化的）。 n dVAE 需要先在语料上训练出一个 encoder 和一个 decoder ， encoder 用来当作 tokenizer ，把图像离散化（对应每一个 patch ），然后给 Transformer 输入 patch ，预测离散后的图像，再用 decoder 还原。

未完，下一篇继续……

本内容不代表本网观点和政治立场，如有侵犯你的权益请联系我们处理。

网友评论

网友评论仅供其表达个人看法，并不表明网站立场。