Social-MAE: A Transformer-Based Multimodal Autoencoder for Face and Voice

Human social behaviors are inherently multi-modal necessitating the development of powerful audiovisual models for their perception. In this paper, we present Social-MAE, our pre-trained audiovisual Masked Autoencoder based on an extended version of Contrastive Audio-Visual Masked Auto-Encoder (CAV-...

Ausführliche Beschreibung

Gespeichert in:

Bibliographische Detailangaben
Veröffentlicht in:	IEEE International Conference and Workshops on Automatic Face and Gesture Recognition : FG S. 1 - 5
Hauptverfasser:	Bohy, Hugo, Tran, Minh, El Haddad, Kevin, Dutoit, Thierry, Soleymani, Mohammad
Format:	Tagungsbericht
Sprache:	Englisch
Veröffentlicht:	IEEE 27.05.2024
Schlagworte:	Adaptation models Codes Emotion recognition Estimation Face recognition Gesture recognition Transformers
ISSN:	2770-8330
Online-Zugang:	Volltext
Tags:	Tag hinzufügen Keine Tags, Fügen Sie den ersten Tag hinzu!

Schreiben Sie den ersten Kommentar!