Unbinding tensor product representations for image captioning with semantic alignment and complementation

Image captioning, which describes an image with natural language, is an important but challenging multi-modal task. Many state-of-the-art methods generally adopt the encoder–decoder framework to implement information conversion from image modality to text modality. However, most methods are limited...

Celý popis

Uloženo v:

Podrobná bibliografie
Vydáno v:	Multimedia systems Ročník 30; číslo 3; s. 117
Hlavní autoři:	Wu, Bicheng, Wo, Yan
Médium:	Journal Article
Jazyk:	angličtina
Vydáno:	Berlin/Heidelberg Springer Berlin Heidelberg 01.06.2024 Springer Nature B.V
Témata:	Alignment Coding Cognition Computer Communication Networks Computer Graphics Computer Science Cryptology Data Storage Representation Decoding Image acquisition Multimedia Information Systems Natural language Natural language processing Operating Systems Optimization Regular Paper Representations Semantics Tensors Words (language) Image captioning Tensor product representations Semantic content Intermediate representations
ISSN:	0942-4962, 1432-1882
On-line přístup:	Získat plný text
Tagy:	Přidat tag Žádné tagy, Buďte první, kdo vytvoří štítek k tomuto záznamu!

Buďte první, kdo okomentuje tento záznam!