中国科学院东南大学等联合发表最新的视觉

Transformer是一种基于注意力的编码器-解码器架构,它彻底改变了自然语言处理领域。受这一重大成就的启发,最近,在将类似于Transformer的结构应用于计算机视觉(CV)领域上进行了一些开创性工作,这已经证明了它们在各种CV任务上的有效性。与现在的卷积神经网络(CNN)相比,视觉Transformer(ViT)依靠有竞争力的建模能力,在ImageNet、COCO和ADE20k等多个基准上取得了十分优异的性能。在本文中,作者全面回顾了针对三个基本CV任务(分类、检测和分割)的一百多种不同的视觉Transformer,其中提出了一种分类法,根据它们的动机、结构和使用场景来组织这些方法。由于训练设置和面向任务的差异,作者还在不同的配置上评估了这些方法,以方便直观地进行比较,而不仅仅是各种基准测试。此外,作者披露了一系列基本但未经开发的方面,这些方面可能使Transformer从众多架构中脱颖而出,例如,不充分的高级语义嵌入以弥合视觉和顺序Transformer之间的差距。最后,提出了三个有前景的未来研究方向,以供进一步研究。

1.论文和代码地址

论文题目:ASurveyofVisualTransformers

发表单位:中国科学院、东南大学、联想研究院、联想

论文



转载请注明地址:http://www.dongnana.com/dnqc/10978.html
  • 上一篇文章:
  • 下一篇文章: 没有了