A vector quantized masked autoencoder for audiovisual speech emotion recognition

An important challenge in emotion recognition is to develop methods that can leverage unlabeled training data. In this paper, we propose the VQ-MAE-AV model, a self-supervised multimodal model that leverages masked autoencoders to learn representations of audiovisual speech without labels. The model...

Celý popis

Uložené v:
Podrobná bibliografia
Vydané v:Computer vision and image understanding Ročník 257; s. 104362
Hlavní autori: Sadok, Samir, Leglaive, Simon, Séguier, Renaud
Médium: Journal Article
Jazyk:English
Vydavateľské údaje: Elsevier Inc 01.06.2025
Elsevier
Predmet:
ISSN:1077-3142, 1090-235X
On-line prístup:Získať plný text
Tagy: Pridať tag
Žiadne tagy, Buďte prvý, kto otaguje tento záznam!
Buďte prvý, kto okomentuje tento záznam!
Najprv sa musíte prihlásiť.