CATNet: Cross-modal fusion for audio-visual speech recognition

Automatic speech recognition (ASR) is a typical pattern recognition technology that converts human speeches into texts. With the aid of advanced deep learning models, the performance of speech recognition is significantly improved. Especially, the emerging Audio–Visual Speech Recognition (AVSR) meth...

وصف كامل

محفوظ في:

التفاصيل البيبلوغرافية
المؤلفون الرئيسيون:	WANG, Xingmei, MI, Jianchen, LI, Boquan, ZHAO, Yixu, MENG, Jiaxiang
التنسيق:	text
اللغة:	English
منشور في:	Institutional Knowledge at Singapore Management University 2024
الموضوعات:	Attention mechanism Audio-visual speech recognition Cross-modal fusion Deep learning Graphics and Human Computer Interfaces Numerical Analysis and Scientific Computing
الوصول للمادة أونلاين:	https://ink.library.smu.edu.sg/sis_research/8645 https://ink.library.smu.edu.sg/context/sis_research/article/9648/viewcontent/CatNet_av.pdf
الوسوم:	إضافة وسم لا توجد وسوم, كن أول من يضع وسما على هذه التسجيلة!
المؤسسة:	Singapore Management University
اللغة:	English

الانترنت

https://ink.library.smu.edu.sg/sis_research/8645
https://ink.library.smu.edu.sg/context/sis_research/article/9648/viewcontent/CatNet_av.pdf

CATNet: Cross-modal fusion for audio-visual speech recognition

الانترنت

مواد مشابهة