Empirical autopsy of deep video captioning encoder-decoder architecture

Contemporary deep learning based video captioning methods adopt encoder-decoder framework. In encoder, visual features are extracted with 2D/3D Convolutional Neural Networks (CNNs) and a transformed version of those features is passed to the decoder. The decoder uses word embeddings and a language m...

Ausführliche Beschreibung

Gespeichert in:

Bibliographische Detailangaben
Veröffentlicht in:	Array (New York) Jg. 9; S. 100052
Hauptverfasser:	Aafaq, Nayyer, Akhtar, Naveed, Liu, Wei, Mian, Ajmal
Format:	Journal Article
Sprache:	Englisch
Veröffentlicht:	Elsevier Inc 01.03.2021 Elsevier
Schlagworte:	CNN architecture Encoder-decoder Language and vision Language model Natural language processing Recurrent neural networks Video captioning Video to text Word embeddings Recurrent neural networks Language model Video to text CNN architecture Video captioning Language and vision Natural language processing Encoder-decoder Word embeddings
ISSN:	2590-0056, 2590-0056
Online-Zugang:	Volltext
Tags:	Tag hinzufügen Keine Tags, Fügen Sie den ersten Tag hinzu!

Schreiben Sie den ersten Kommentar!