Suchergebnisse - Deep learning architectures and techniques; Recognition: detection

1

Wird geladen …

Equalized Focal Loss for Dense Long-Tailed Object Detection von Li, Bo, Yao, Yongqiang, Tan, Jingru, Zhang, Gang, Yu, Fengwei, Lu, Jianwei, Luo, Ye

ISSN: 1063-6919

Veröffentlicht: IEEE 01.06.2022

Veröffentlicht in Proceedings (IEEE Computer Society Conference on Computer Vision and Pattern Recognition. Online) (01.06.2022)
“… Despite the recent success of long-tailed object detection, almost all long-tailed object detectors are developed based on the two-stage paradigm …”

Volltext

Tagungsbericht

Zu den Favoriten

Gespeichert in:
2

Wird geladen …

Sylph: A Hypernetwork Framework for Incremental Few-shot Object Detection von Yin, Li, Perez-Rua, Juan M, Liang, Kevin J

ISSN: 1063-6919

Veröffentlicht: IEEE 01.06.2022

Veröffentlicht in Proceedings (IEEE Computer Society Conference on Computer Vision and Pattern Recognition. Online) (01.06.2022)
“… We study the challenging incremental few-shot object de-tection (iFSD) setting. Recently, hypernetwork-based approaches have been studied in the context of …”

Volltext

Tagungsbericht

Zu den Favoriten

Gespeichert in:
3

Wird geladen …

A ConvNet for the 2020s von Liu, Zhuang, Mao, Hanzi, Wu, Chao-Yuan, Feichtenhofer, Christoph, Darrell, Trevor, Xie, Saining

ISSN: 1063-6919

Veröffentlicht: IEEE 01.06.2022

Veröffentlicht in Proceedings (IEEE Computer Society Conference on Computer Vision and Pattern Recognition. Online) (01.06.2022)
“… The "Roaring 20s" of visual recognition began with the introduction of Vision Transformers (ViTs …”

Volltext

Tagungsbericht

Zu den Favoriten

Gespeichert in:
4

Wird geladen …

Grounded Language-Image Pre-training von Li, Liunian Harold, Zhang, Pengchuan, Zhang, Haotian, Yang, Jianwei, Li, Chunyuan, Zhong, Yiwu, Wang, Lijuan, Yuan, Lu, Zhang, Lei, Hwang, Jenq-Neng, Chang, Kai-Wei, Gao, Jianfeng

ISSN: 1063-6919

Veröffentlicht: IEEE 01.06.2022

Veröffentlicht in Proceedings (IEEE Computer Society Conference on Computer Vision and Pattern Recognition. Online) (01.06.2022)
“… This paper presents a grounded language-image pretraining (GLIP) model for learning object-level, language-aware, and semantic-rich visual representations …”

Volltext

Tagungsbericht

Zu den Favoriten

Gespeichert in:
5

Wird geladen …

CSWin Transformer: A General Vision Transformer Backbone with Cross-Shaped Windows von Dong, Xiaoyi, Bao, Jianmin, Chen, Dongdong, Zhang, Weiming, Yu, Nenghai, Yuan, Lu, Chen, Dong, Guo, Baining

ISSN: 1063-6919

Veröffentlicht: IEEE 01.06.2022

Veröffentlicht in Proceedings (IEEE Computer Society Conference on Computer Vision and Pattern Recognition. Online) (01.06.2022)
“… We present CSWin Transformer, an efficient and effective Transformer-based backbone for general-purpose vision tasks. A challenging issue in Transformer design …”

Volltext

Tagungsbericht

Zu den Favoriten

Gespeichert in:
6

Wird geladen …

MetaFormer is Actually What You Need for Vision von Yu, Weihao, Luo, Mi, Zhou, Pan, Si, Chenyang, Zhou, Yichen, Wang, Xinchao, Feng, Jiashi, Yan, Shuicheng

ISSN: 1063-6919

Veröffentlicht: IEEE 01.01.2022

Veröffentlicht in Proceedings (IEEE Computer Society Conference on Computer Vision and Pattern Recognition. Online) (01.01.2022)
“… Based on this observation, we hypothesize that the general architecture of the transformers, instead of the specific token mixer module, is more essential to the model's performance …”

Volltext

Tagungsbericht

Zu den Favoriten

Gespeichert in:
7

Wird geladen …

beta-DARTS: Beta-Decay Regularization for Differentiable Architecture Search von Ye, Peng, Li, Baopu, Li, Yikang, Chen, Tao, Fan, Jiayuan, Ouyang, Wanli

ISSN: 1063-6919

Veröffentlicht: IEEE 01.06.2022

Veröffentlicht in Proceedings (IEEE Computer Society Conference on Computer Vision and Pattern Recognition. Online) (01.06.2022)
“… Neural Architecture Search (NAS) has attracted increasingly more attention in recent years because of its capability to design deep neural network automatically …”

Volltext

Tagungsbericht

Zu den Favoriten

Gespeichert in:
8

Wird geladen …

SLIC: Self-Supervised Learning with Iterative Clustering for Human Action Videos von Khorasgani, Salar Hosseini, Chen, Yuxuan, Shkurti, Florian

ISSN: 1063-6919

Veröffentlicht: IEEE 01.06.2022

Veröffentlicht in Proceedings (IEEE Computer Society Conference on Computer Vision and Pattern Recognition. Online) (01.06.2022)
“… Self-supervised methods have significantly closed the gap with end-to-end supervised learning for image classification [13], [24 …”

Volltext

Tagungsbericht

Zu den Favoriten

Gespeichert in:
9

Wird geladen …

Revisiting Weakly Supervised Pre-Training of Visual Perception Models von Singh, Mannat, Gustafson, Laura, Adcock, Aaron, De Freitas Reis, Vinicius, Gedik, Bugra, Kosaraju, Raj Prateek, Mahajan, Dhruv, Girshick, Ross, Dollar, Piotr, Van Der Maaten, Laurens

ISSN: 1063-6919

Veröffentlicht: IEEE 01.06.2022

Veröffentlicht in Proceedings (IEEE Computer Society Conference on Computer Vision and Pattern Recognition. Online) (01.06.2022)
“… Model pre-training is a cornerstone of modern visual recognition systems. Although fully supervised pre-training on datasets like ImageNet is still the de-facto …”

Volltext

Tagungsbericht

Zu den Favoriten

Gespeichert in:
10

Wird geladen …

Multimodal Token Fusion for Vision Transformers von Wang, Yikai, Chen, Xinghao, Cao, Lele, Huang, Wenbing, Sun, Fuchun, Wang, Yunhe

ISSN: 1063-6919

Veröffentlicht: IEEE 01.06.2022

Veröffentlicht in Proceedings (IEEE Computer Society Conference on Computer Vision and Pattern Recognition. Online) (01.06.2022)
“… Many adaptations of transformers have emerged to address the single-modal vision tasks, where self-attention modules are stacked to handle input sources like …”

Volltext

Tagungsbericht

Zu den Favoriten

Gespeichert in:
11

Wird geladen …

Knowledge Distillation via the Target-aware Transformer von Lin, Sihao, Xie, Hongwei, Wang, Bing, Yu, Kaicheng, Chang, Xiaojun, Liang, Xiaodan, Wang, Gang

ISSN: 1063-6919

Veröffentlicht: IEEE 01.06.2022

Veröffentlicht in Proceedings (IEEE Computer Society Conference on Computer Vision and Pattern Recognition. Online) (01.06.2022)
“… However, people tend to overlook the fact that, due to the architecture differences, the semantic information on the same spatial location usually vary …”

Volltext

Tagungsbericht

Zu den Favoriten

Gespeichert in:
12

Wird geladen …

Single-Domain Generalized Object Detection in Urban Scene via Cyclic-Disentangled Self-Distillation von Wu, Aming, Deng, Cheng

ISSN: 1063-6919

Veröffentlicht: IEEE 01.06.2022

Veröffentlicht in Proceedings (IEEE Computer Society Conference on Computer Vision and Pattern Recognition. Online) (01.06.2022)
“… And we consider a realistic yet challenging scenario, namely Single-Domain Generalized Object Detection (Single-DGOD …”

Volltext

Tagungsbericht

Zu den Favoriten

Gespeichert in:
13

Wird geladen …

TransMix: Attend to Mix for Vision Transformers von Chen, Jie-Neng, Sun, Shuyang, He, Ju, Torr, Philip, Yuille, Alan, Bai, Song

ISSN: 1063-6919

Veröffentlicht: IEEE 01.06.2022

Veröffentlicht in Proceedings (IEEE Computer Society Conference on Computer Vision and Pattern Recognition. Online) (01.06.2022)
“… Mixup-based augmentation has been found to be effective for generalizing models during training, especially for Vision Transformers (ViTs) since they can …”

Volltext

Tagungsbericht

Zu den Favoriten

Gespeichert in:
14

Wird geladen …

Unbiased Teacher v2: Semi-supervised Object Detection for Anchor-free and Anchor-based Detectors von Liu, Yen-Cheng, Ma, Chih-Yao, Kira, Zsolt

ISSN: 1063-6919

Veröffentlicht: IEEE 01.06.2022

Veröffentlicht in Proceedings (IEEE Computer Society Conference on Computer Vision and Pattern Recognition. Online) (01.06.2022)
“… With the recent development of Semi-Supervised Object Detection (SS-OD) techniques, object detectors can be improved by using a limited amount of labeled data and abundant unlabeled data …”

Volltext

Tagungsbericht

Zu den Favoriten

Gespeichert in:
15

Wird geladen …

MiniViT: Compressing Vision Transformers with Weight Multiplexing von Zhang, Jinnian, Peng, Houwen, Wu, Kan, Liu, Mengchen, Xiao, Bin, Fu, Jianlong, Yuan, Lu

ISSN: 1063-6919

Veröffentlicht: IEEE 01.06.2022

Veröffentlicht in Proceedings (IEEE Computer Society Conference on Computer Vision and Pattern Recognition. Online) (01.06.2022)
“… Vision Transformer (ViT) models have recently drawn much attention in computer vision due to their high model capability. However, ViT models suffer from huge …”

Volltext

Tagungsbericht

Zu den Favoriten

Gespeichert in:
16

Wird geladen …

TableFormer: Table Structure Understanding with Transformers von Nassar, Ahmed, Livathinos, Nikolaos, Lysak, Maksym, Staar, Peter

ISSN: 1063-6919

Veröffentlicht: IEEE 01.06.2022

Veröffentlicht in Proceedings (IEEE Computer Society Conference on Computer Vision and Pattern Recognition. Online) (01.06.2022)
“… In this paper, we present a new table-structure identification model. The latter improves the latest end-to-end deep learning model (i.e …”

Volltext

Tagungsbericht

Zu den Favoriten

Gespeichert in:
17

Wird geladen …

VISTA: Boosting 3D Object Detection via Dual Cross-VIew SpaTial Attention von Deng, Shengheng, Liang, Zhihao, Sun, Lin, Jia, Kui

ISSN: 1063-6919

Veröffentlicht: IEEE 01.06.2022

Veröffentlicht in Proceedings (IEEE Computer Society Conference on Computer Vision and Pattern Recognition. Online) (01.06.2022)
“… Detecting objects from LiDAR point clouds is of tremendous significance in autonomous driving …”

Volltext

Tagungsbericht

Zu den Favoriten

Gespeichert in:
18

Wird geladen …

Human-Object Interaction Detection via Disentangled Transformer von Zhou, Desen, Liu, Zhichao, Wang, Jian, Wang, Leshan, Hu, Tao, Ding, Errui, Wang, Jingdong

ISSN: 1063-6919

Veröffentlicht: IEEE 01.06.2022

Veröffentlicht in Proceedings (IEEE Computer Society Conference on Computer Vision and Pattern Recognition. Online) (01.06.2022)
“… Human-Object Interaction Detection tackles the problem of joint localization and classification of human object interactions …”

Volltext

Tagungsbericht

Zu den Favoriten

Gespeichert in:
19

Wird geladen …

Progressive End-to-End Object Detection in Crowded Scenes von Zheng, Anlin, Zhang, Yuang, Zhang, Xiangyu, Qi, Xiaojuan, Sun, Jian

ISSN: 1063-6919

Veröffentlicht: IEEE 01.06.2022

Veröffentlicht in Proceedings (IEEE Computer Society Conference on Computer Vision and Pattern Recognition. Online) (01.06.2022)
“… In this paper, we propose a new query-based detection framework for crowd detection …”

Volltext

Tagungsbericht

Zu den Favoriten

Gespeichert in:
20

Wird geladen …

DTA: Physical Camouflage Attacks using Differentiable Transformation Network von Suryanto, Naufal, Kim, Yongsu, Kang, Hyoeun, Larasati, Harashta Tatimma, Yun, Youngyeo, Le, Thi-Thu-Huong, Yang, Hunmin, Oh, Se-Yoon, Kim, Howon

ISSN: 1063-6919

Veröffentlicht: IEEE 01.06.2022

Veröffentlicht in Proceedings (IEEE Computer Society Conference on Computer Vision and Pattern Recognition. Online) (01.06.2022)
“… In this paper, we propose the Differentiable Transformation Attack (DTA), a framework for generating a robust physical adversarial pattern on a target object to camouflage it against object detection models with a wide range of transformations …”

Volltext

Tagungsbericht

Zu den Favoriten

Gespeichert in:

Suchergebnisse - Deep learning architectures and techniques; Recognition: detection

Equalized Focal Loss for Dense Long-Tailed Object Detection von Li, Bo, Yao, Yongqiang, Tan, Jingru, Zhang, Gang, Yu, Fengwei, Lu, Jianwei, Luo, Ye

Sylph: A Hypernetwork Framework for Incremental Few-shot Object Detection von Yin, Li, Perez-Rua, Juan M, Liang, Kevin J

A ConvNet for the 2020s von Liu, Zhuang, Mao, Hanzi, Wu, Chao-Yuan, Feichtenhofer, Christoph, Darrell, Trevor, Xie, Saining

Grounded Language-Image Pre-training von Li, Liunian Harold, Zhang, Pengchuan, Zhang, Haotian, Yang, Jianwei, Li, Chunyuan, Zhong, Yiwu, Wang, Lijuan, Yuan, Lu, Zhang, Lei, Hwang, Jenq-Neng, Chang, Kai-Wei, Gao, Jianfeng

CSWin Transformer: A General Vision Transformer Backbone with Cross-Shaped Windows von Dong, Xiaoyi, Bao, Jianmin, Chen, Dongdong, Zhang, Weiming, Yu, Nenghai, Yuan, Lu, Chen, Dong, Guo, Baining

MetaFormer is Actually What You Need for Vision von Yu, Weihao, Luo, Mi, Zhou, Pan, Si, Chenyang, Zhou, Yichen, Wang, Xinchao, Feng, Jiashi, Yan, Shuicheng

beta-DARTS: Beta-Decay Regularization for Differentiable Architecture Search von Ye, Peng, Li, Baopu, Li, Yikang, Chen, Tao, Fan, Jiayuan, Ouyang, Wanli

SLIC: Self-Supervised Learning with Iterative Clustering for Human Action Videos von Khorasgani, Salar Hosseini, Chen, Yuxuan, Shkurti, Florian

Revisiting Weakly Supervised Pre-Training of Visual Perception Models von Singh, Mannat, Gustafson, Laura, Adcock, Aaron, De Freitas Reis, Vinicius, Gedik, Bugra, Kosaraju, Raj Prateek, Mahajan, Dhruv, Girshick, Ross, Dollar, Piotr, Van Der Maaten, Laurens

Multimodal Token Fusion for Vision Transformers von Wang, Yikai, Chen, Xinghao, Cao, Lele, Huang, Wenbing, Sun, Fuchun, Wang, Yunhe

Knowledge Distillation via the Target-aware Transformer von Lin, Sihao, Xie, Hongwei, Wang, Bing, Yu, Kaicheng, Chang, Xiaojun, Liang, Xiaodan, Wang, Gang

Single-Domain Generalized Object Detection in Urban Scene via Cyclic-Disentangled Self-Distillation von Wu, Aming, Deng, Cheng

TransMix: Attend to Mix for Vision Transformers von Chen, Jie-Neng, Sun, Shuyang, He, Ju, Torr, Philip, Yuille, Alan, Bai, Song

Unbiased Teacher v2: Semi-supervised Object Detection for Anchor-free and Anchor-based Detectors von Liu, Yen-Cheng, Ma, Chih-Yao, Kira, Zsolt

MiniViT: Compressing Vision Transformers with Weight Multiplexing von Zhang, Jinnian, Peng, Houwen, Wu, Kan, Liu, Mengchen, Xiao, Bin, Fu, Jianlong, Yuan, Lu

TableFormer: Table Structure Understanding with Transformers von Nassar, Ahmed, Livathinos, Nikolaos, Lysak, Maksym, Staar, Peter

VISTA: Boosting 3D Object Detection via Dual Cross-VIew SpaTial Attention von Deng, Shengheng, Liang, Zhihao, Sun, Lin, Jia, Kui

Human-Object Interaction Detection via Disentangled Transformer von Zhou, Desen, Liu, Zhichao, Wang, Jian, Wang, Leshan, Hu, Tao, Ding, Errui, Wang, Jingdong

Progressive End-to-End Object Detection in Crowded Scenes von Zheng, Anlin, Zhang, Yuang, Zhang, Xiangyu, Qi, Xiaojuan, Sun, Jian

DTA: Physical Camouflage Attacks using Differentiable Transformation Network von Suryanto, Naufal, Kim, Yongsu, Kang, Hyoeun, Larasati, Harashta Tatimma, Yun, Youngyeo, Le, Thi-Thu-Huong, Yang, Hunmin, Oh, Se-Yoon, Kim, Howon

Suchwerkzeuge:

Treffer weiter einschränken

Format

Schlagwortumfeld

Thema

Sprache

Erscheinungsjahr