ControlNet Blog

计算机视觉中的Transformer续

上一篇文章《计算机视觉中的Transformer》讲了计算机视觉中的Transformer结构^[1]，还有非常受欢迎的Vision Transformer(ViT)^[2]。本篇文章将补上上一篇掠过的《Attention Augmented Convolutional Networks》^[3]和《End-to-End Object Detection with Transformers》^[4]，同时也会介绍一下DeiT (Data-effieciency Image Transformer)^[5]。

2021-07-26 阅读

全文字数: 4k

阅读时长: 17分钟

计算机视觉中的Transformer

深度学习中最一开始的Transformer是2017年推出的，非常强力^[1]。可能当时作者觉得这个东西很强，所以才会赋予”变形金刚”的名字吧。而后来，Transformer也广泛的推广到了计算机视觉(CV)领域，从2020年开始，就有对Transformer在CV中的大量新研究发表。

本文主要会讲最初的Transformer，Vision Transformer(ViT)和Multi-scale Vision Transformer(MViT)。

2021-04-30 阅读

全文字数: 3.7k

阅读时长: 15分钟