Unbinding tensor product representations for image captioning with semantic alignment and complementation

Image captioning, which describes an image with natural language, is an important but challenging multi-modal task. Many state-of-the-art methods generally adopt the encoder–decoder framework to implement information conversion from image modality to text modality. However, most methods are limited...

Celý popis

Uloženo v:
Podrobná bibliografie
Vydáno v:Multimedia systems Ročník 30; číslo 3; s. 117
Hlavní autoři: Wu, Bicheng, Wo, Yan
Médium: Journal Article
Jazyk:angličtina
Vydáno: Berlin/Heidelberg Springer Berlin Heidelberg 01.06.2024
Springer Nature B.V
Témata:
ISSN:0942-4962, 1432-1882
On-line přístup:Získat plný text
Tagy: Přidat tag
Žádné tagy, Buďte první, kdo vytvoří štítek k tomuto záznamu!
Buďte první, kdo okomentuje tento záznam!
Nejprve se musíte přihlásit.