Bimodal variational autoencoder for audiovisual speech recognition

Multimodal fusion is the idea of combining information in a joint representation of multiple modalities. The goal of multimodal fusion is to improve the accuracy of results from classification or regression tasks. This paper proposes a Bimodal Variational Autoencoder (BiVAE) model for audiovisual fe...

Full description

Saved in:

Bibliographic Details
Published in:	Machine learning Vol. 112; no. 4; pp. 1201 - 1226
Main Authors:	Sayed, Hadeer M., ElDeeb, Hesham E., Taie, Shereen A.
Format:	Journal Article
Language:	English
Published:	New York Springer US 01.04.2023 Springer Nature B.V
Subjects:	Accuracy Artificial Intelligence Artificial neural networks Classifiers Computer Science Control Discovery Science 2020 Evaluation Machine Learning Mechatronics Natural Language Processing (NLP) Robotics Simulation and Modeling Speech recognition Support vector machines Video signals Voice recognition Deep learning Variational autoencoder Cross-modality Multimodal data fusion Audiovisual speech recognition
ISSN:	0885-6125, 1573-0565
Online Access:	Get full text
Tags:	Add Tag No Tags, Be the first to tag this record!

Be the first to leave a comment!