Empirical autopsy of deep video captioning encoder-decoder architecture

Contemporary deep learning based video captioning methods adopt encoder-decoder framework. In encoder, visual features are extracted with 2D/3D Convolutional Neural Networks (CNNs) and a transformed version of those features is passed to the decoder. The decoder uses word embeddings and a language m...

Celý popis

Uloženo v:

Podrobná bibliografie
Vydáno v:	Array (New York) Ročník 9; s. 100052
Hlavní autoři:	Aafaq, Nayyer, Akhtar, Naveed, Liu, Wei, Mian, Ajmal
Médium:	Journal Article
Jazyk:	angličtina
Vydáno:	Elsevier Inc 01.03.2021 Elsevier
Témata:	CNN architecture Encoder-decoder Language and vision Language model Natural language processing Recurrent neural networks Video captioning Video to text Word embeddings Recurrent neural networks Language model Video to text CNN architecture Video captioning Language and vision Natural language processing Encoder-decoder Word embeddings
ISSN:	2590-0056, 2590-0056
On-line přístup:	Získat plný text
Tagy:	Přidat tag Žádné tagy, Buďte první, kdo vytvoří štítek k tomuto záznamu!

Buďte první, kdo okomentuje tento záznam!