Dynamic fusion with intra-and inter-modality attention flow for visual question answering

Dynamic fusion with intra-and inter-modality attention flow for visual question answering

Learning effective fusion of multi-modality features is at the heart of visual question answering. We propose a novel method of dynamically fusing multi-modal features with intra- and inter-modality information ﬂow, which alternatively pass dynamic information between and across the visual and langu...

Full description

Saved in:

Bibliographic Details
Main Authors:	GAO, Peng, JIANG, Zhengkai, YOU, Haoxuan, LU, Pan, HOI, Steven C. H., WANG, Xiaogang, LI, Hongsheng
Format:	text
Language:	English
Published:	Institutional Knowledge at Singapore Management University 2019
Subjects:	Vision + Language Vision Applications and Systems Visual Reasoning Databases and Information Systems
Online Access:	https://ink.library.smu.edu.sg/sis_research/5260 https://ink.library.smu.edu.sg/context/sis_research/article/6263/viewcontent/Gao_Dynamic_Fusion_With_Intra__and_Inter_Modality_Attention_Flow_for_Visual_CVPR_2019_paper.pdf
Tags:	Add Tag No Tags, Be the first to tag this record!
Institution:	Singapore Management University
Language:	English

Similar Items

SegEQA : video segmentation based visual attention for embodied question answering
by: Luo, Haonan, et al.
Published: (2020)

Declaration-based prompt tuning for visual question answering
by: LIU, Yuhang, et al.
Published: (2022)

Question-guided hybrid convolution for visual question answering
by: GAO, Peng, et al.
Published: (2018)

Salient object detection with pyramid attention and salient edges
by: WANG, Wenguan, et al.
Published: (2019)

A survey on complex knowledge base question answering: Methods, challenges and solutions
by: LAN, Yunshi, et al.
Published: (2021)

Multi-task learning with multi-view attention for answer selection and knowledge base question answering
by: DENG, Yang, et al.
Published: (2019)

Knowledge-aware attentive neural network for ranking question answer pairs
by: SHEN, Ying, et al.
Published: (2018)

Exploiting Reasoning Chains for Multi-hop Science Question Answering
by: XU, Weiwen, et al.
Published: (2021)

TRRNet : tiered relation reasoning for compositional visual question answering
by: Yang, Xiaofeng, et al.
Published: (2020)

Action-centric relation transformer network for video question answering
by: ZHANG, Jipeng, et al.
Published: (2022)

Using community question-and-answer corpora for question answering.
by: Blooma Mohan John.
Published: (2011)

Underwater distance ranging implemented through a stereo vision system
by: Cabarle, Luis Eduardo, et al.
Published: (2016)

AnswerFact: Fact checking in product question answering
by: ZHANG, Wenxuan, et al.
Published: (2020)

Decoding the underlying meaning of multimodal hateful memes
by: HEE, Ming Shan, et al.
Published: (2023)

Nonfactoid question answering as query-focused summarization with graph-enhanced multihop inference
by: DENG, Yang, et al.
Published: (2024)

Pre-attentive discrimination of interestingness in images
by: Katti, H., et al.
Published: (2013)

Cross-modal graph with meta concepts for video captioning
by: Wang, Hao, et al.
Published: (2022)

Attention in Cognitive Systems
Published: (2017)

Contrastive video question answering via video graph transformer
by: XIAO, Junbin Xiao, et al.
Published: (2023)

Question classification in community based question answering services
by: Chua, Yuki Pei Cheng.
Published: (2011)

Illumination System Modeling Techniques in Wire Bonding Pattern Recognition System
by: Yong, Wayne, et al.
Published: (2021)

Evidence aggregation for answer re-ranking in open-domain question answering
by: WANG, Shuohang, et al.
Published: (2018)

QCRI: Answer selection for community question answering - Experiment for Arabic and English
by: NICOSIA, Massimo, et al.
Published: (2015)

Mathematical question retrieval for web-based question-answering
by: Gayathri Gopalakrishnan
Published: (2014)

Triple-attention computation model for question answering
by: Yu, Sicheng
Published: (2018)

Sensor fusion method for horizon detection from an aircraft in low visibility conditions
by: Liu, C., et al.
Published: (2016)

A binocular vision system for object tracking and distance perception based on optical convergence
by: Ke, Gaston Anthony N., et al.
Published: (2006)

Intra- and inter-sector contextual information fusion with joint self-attention for file fragment classification
by: Wang, Yi, et al.
Published: (2024)

A computer vision sensor for efficient object detection under varying lighting conditions
by: Cuhadar, Can, et al.
Published: (2022)

Using knowledge bases for question answering
by: LAN, Yunshi
Published: (2020)

PACIFIC: Towards proactive conversational question answering over tabular and textual data in finance
by: DENG, Yang, et al.
Published: (2022)

Robot arm guidance using visual servoing
by: Dealino, Francis Michael, et al.
Published: (2004)

Sparse: A reservation and computer vision-based room occupancy system for Malayan Colleges Laguna's Center for Learning and Information Resources
by: Lipat, Job, et al.
Published: (2022)

Integration and implementation of a low-cost and vision-based UAV tracking system
by: Lin, F., et al.
Published: (2014)

Analysis on nonlinear feedback controls for differential mobile robots and its application to multi-robot formation control - part two
by: Wan, J., et al.
Published: (2014)

Aspect-based sentiment analysis in question answering forums
by: ZHANG, Wenxuan, et al.
Published: (2021)

Incremental query answering over semantic contextual information
by: MOHAMMAD OLIYA
Published: (2012)

Thumbmark recognition system
by: Antonio, Percival S., et al.
Published: (1993)

Cross-modal graph with meta concepts for video captioning
by: WANG, Hao, et al.
Published: (2022)

Runway extraction in low visibility conditions based on sensor fusion method
by: Liu, C., et al.
Published: (2016)