PVT v2: Improved baselines with Pyramid Vision Transformer
Transformers have recently lead to encouraging progress in computer vision. In this work, we present new baselines by improving the original Pyramid Vision Transformer (PVT v1) by adding three designs: (i) a linear complexity attention layer, (ii) an overlapping patch embedding, and (iii) a convolut...
Uloženo v:
| Vydáno v: | Computational visual media (Beijing) Ročník 8; číslo 3; s. 415 - 424 |
|---|---|
| Hlavní autoři: | , , , , , , , , |
| Médium: | Journal Article |
| Jazyk: | angličtina |
| Vydáno: |
Beijing
Tsinghua University Press
01.09.2022
Springer Nature B.V |
| Témata: | |
| ISSN: | 2096-0433, 2096-0662 |
| On-line přístup: | Získat plný text |
| Tagy: |
Přidat tag
Žádné tagy, Buďte první, kdo vytvoří štítek k tomuto záznamu!
|
Buďte první, kdo okomentuje tento záznam!