CATNet: Cross-modal fusion for audio-visual speech recognition

Automatic speech recognition (ASR) is a typical pattern recognition technology that converts human speeches into texts. With the aid of advanced deep learning models, the performance of speech recognition is significantly improved. Especially, the emerging Audio–Visual Speech Recognition (AVSR) meth...

Full description

Saved in:

Bibliographic Details
Main Authors:	WANG, Xingmei, MI, Jianchen, LI, Boquan, ZHAO, Yixu, MENG, Jiaxiang
Format:	text
Language:	English
Published:	Institutional Knowledge at Singapore Management University 2024
Subjects:	Attention mechanism Audio-visual speech recognition Cross-modal fusion Deep learning Graphics and Human Computer Interfaces Numerical Analysis and Scientific Computing
Online Access:	https://ink.library.smu.edu.sg/sis_research/8645 https://ink.library.smu.edu.sg/context/sis_research/article/9648/viewcontent/CatNet_av.pdf
Tags:	Add Tag No Tags, Be the first to tag this record!
Institution:	Singapore Management University
Language:	English

Internet

https://ink.library.smu.edu.sg/sis_research/8645
https://ink.library.smu.edu.sg/context/sis_research/article/9648/viewcontent/CatNet_av.pdf

CATNet: Cross-modal fusion for audio-visual speech recognition

Internet

Similar Items