Social-MAE: A Transformer-Based Multimodal Autoencoder for Face and Voice
Human social behaviors are inherently multi-modal necessitating the development of powerful audiovisual models for their perception. In this paper, we present Social-MAE, our pre-trained audiovisual Masked Autoencoder based on an extended version of Contrastive Audio-Visual Masked Auto-Encoder (CAV-...
Gespeichert in:
| Veröffentlicht in: | IEEE International Conference and Workshops on Automatic Face and Gesture Recognition : FG S. 1 - 5 |
|---|---|
| Hauptverfasser: | , , , , |
| Format: | Tagungsbericht |
| Sprache: | Englisch |
| Veröffentlicht: |
IEEE
27.05.2024
|
| Schlagworte: | |
| ISSN: | 2770-8330 |
| Online-Zugang: | Volltext |
| Tags: |
Tag hinzufügen
Keine Tags, Fügen Sie den ersten Tag hinzu!
|
Schreiben Sie den ersten Kommentar!