Unbinding tensor product representations for image captioning with semantic alignment and complementation
Image captioning, which describes an image with natural language, is an important but challenging multi-modal task. Many state-of-the-art methods generally adopt the encoder–decoder framework to implement information conversion from image modality to text modality. However, most methods are limited...
Uloženo v:
| Vydáno v: | Multimedia systems Ročník 30; číslo 3; s. 117 |
|---|---|
| Hlavní autoři: | , |
| Médium: | Journal Article |
| Jazyk: | angličtina |
| Vydáno: |
Berlin/Heidelberg
Springer Berlin Heidelberg
01.06.2024
Springer Nature B.V |
| Témata: | |
| ISSN: | 0942-4962, 1432-1882 |
| On-line přístup: | Získat plný text |
| Tagy: |
Přidat tag
Žádné tagy, Buďte první, kdo vytvoří štítek k tomuto záznamu!
|
Buďte první, kdo okomentuje tento záznam!