Bimodal variational autoencoder for audiovisual speech recognition

Multimodal fusion is the idea of combining information in a joint representation of multiple modalities. The goal of multimodal fusion is to improve the accuracy of results from classification or regression tasks. This paper proposes a Bimodal Variational Autoencoder (BiVAE) model for audiovisual fe...

Ausführliche Beschreibung

Gespeichert in:

Bibliographische Detailangaben
Veröffentlicht in:	Machine learning Jg. 112; H. 4; S. 1201 - 1226
Hauptverfasser:	Sayed, Hadeer M., ElDeeb, Hesham E., Taie, Shereen A.
Format:	Journal Article
Sprache:	Englisch
Veröffentlicht:	New York Springer US 01.04.2023 Springer Nature B.V
Schlagworte:	Accuracy Artificial Intelligence Artificial neural networks Classifiers Computer Science Control Discovery Science 2020 Evaluation Machine Learning Mechatronics Natural Language Processing (NLP) Robotics Simulation and Modeling Speech recognition Support vector machines Video signals Voice recognition Deep learning Variational autoencoder Cross-modality Multimodal data fusion Audiovisual speech recognition
ISSN:	0885-6125, 1573-0565
Online-Zugang:	Volltext
Tags:	Tag hinzufügen Keine Tags, Fügen Sie den ersten Tag hinzu!

Schreiben Sie den ersten Kommentar!