A vector quantized masked autoencoder for audiovisual speech emotion recognition

An important challenge in emotion recognition is to develop methods that can leverage unlabeled training data. In this paper, we propose the VQ-MAE-AV model, a self-supervised multimodal model that leverages masked autoencoders to learn representations of audiovisual speech without labels. The model...

Celý popis

Uloženo v:
Podrobná bibliografie
Vydáno v:Computer vision and image understanding Ročník 257; s. 104362
Hlavní autoři: Sadok, Samir, Leglaive, Simon, Séguier, Renaud
Médium: Journal Article
Jazyk:angličtina
Vydáno: Elsevier Inc 01.06.2025
Elsevier
Témata:
ISSN:1077-3142, 1090-235X
On-line přístup:Získat plný text
Tagy: Přidat tag
Žádné tagy, Buďte první, kdo vytvoří štítek k tomuto záznamu!
Buďte první, kdo okomentuje tento záznam!
Nejprve se musíte přihlásit.