Cross-modal graph with meta concepts for video captioning
Video captioning targets interpreting the complex visual contents as text descriptions, which requires the model to fully understand video scenes including objects and their interactions. Prevailing methods adopt off-the-shelf object detection networks to give object proposals and use the attention...
محفوظ في:
المؤلفون الرئيسيون: | , , , |
---|---|
مؤلفون آخرون: | |
التنسيق: | مقال |
اللغة: | English |
منشور في: |
2022
|
الموضوعات: | |
الوصول للمادة أونلاين: | https://hdl.handle.net/10356/162546 |
الوسوم: |
إضافة وسم
لا توجد وسوم, كن أول من يضع وسما على هذه التسجيلة!
|
المؤسسة: | Nanyang Technological University |
اللغة: | English |