A vector quantized masked autoencoder for audiovisual speech emotion recognition

An important challenge in emotion recognition is to develop methods that can leverage unlabeled training data. In this paper, we propose the VQ-MAE-AV model, a self-supervised multimodal model that leverages masked autoencoders to learn representations of audiovisual speech without labels. The model...

Ausführliche Beschreibung

Gespeichert in:
Bibliographische Detailangaben
Veröffentlicht in:Computer vision and image understanding Jg. 257; S. 104362
Hauptverfasser: Sadok, Samir, Leglaive, Simon, Séguier, Renaud
Format: Journal Article
Sprache:Englisch
Veröffentlicht: Elsevier Inc 01.06.2025
Elsevier
Schlagworte:
ISSN:1077-3142, 1090-235X
Online-Zugang:Volltext
Tags: Tag hinzufügen
Keine Tags, Fügen Sie den ersten Tag hinzu!