1500字范文,内容丰富有趣,写作好帮手!
1500字范文 > ai培训师讲师叶梓:计算机视觉领域的自监督学习模型——MAE-5

ai培训师讲师叶梓:计算机视觉领域的自监督学习模型——MAE-5

时间:2020-07-03 23:03:47

相关推荐

ai培训师讲师叶梓:计算机视觉领域的自监督学习模型——MAE-5

接上一篇

P9 P11

ViT中的Tranformer编码器

n Tranformer 编码器由 multi-head self-attention ( MSA )和 MLP 块的层组成。 n 在每个块之前应用 Layernorm ( LN ),在每个块之后应用残差连接。 n MLP 包含具有 GELU 非线性的两全连接层。

Vision Transformer(ViT)

n 模型变种: ViT 的配置基于 BERT 所使用的配置,如下表, BERT 采用了“ Base” 和“ Large” 模型,并添加了较大的“ Huge” 模型。 n 经过大数据集的预训练后,性能也超过了当前 CNN 的一些 SOTA 结果 经过大数据集的预训练后,性能也超过了当前 CNN 的一些 SOTA 结果如上

BEiT

n 实验证明 vision Transformer 需要远比 CNN 更多的数据来训练。为了解决需要大量数据来训练的这个问题,自监督式的预训练是一个很有前途的方式,它可以利用大规模的图像数据。 n BEiT 的形式很接近 BERT ,只不过用了一个 dVAE 对 patch 进行离散化(就像 NLP 的 token 也是离散化的)。 n dVAE 需要先在语料上训练出一个 encoder 和一个 decoder , encoder 用来当作 tokenizer ,把图像离散化(对应每一个 patch ),然后给 Transformer 输入 patch ,预测离散后的图像,再用 decoder 还原。

未完,下一篇继续……

本内容不代表本网观点和政治立场,如有侵犯你的权益请联系我们处理。
网友评论
网友评论仅供其表达个人看法,并不表明网站立场。