UniD3: unified discrete diffusion for simultaneous vision-language generation

The recently developed discrete diffusion model performs extraordinarily well in generation tasks, especially in the text-to-image task, showing great potential for modeling multimodal signals. In this paper, we leverage these properties and present a unified multimodal generation model, which can p...

وصف كامل

محفوظ في:

التفاصيل البيبلوغرافية
المؤلفون الرئيسيون:	Hu, Minghui, Zheng, Chuanxia, Cham, Tat-Jen, Suganthan, Ponnuthurai Nagaratnam, Yang, Zuopeng, Zheng, Heliang, Wang, Chaoyue, Tao, Dacheng
مؤلفون آخرون:	School of Computer Science and Engineering
التنسيق:	Conference or Workshop Item
اللغة:	English
منشور في:	2023
الموضوعات:	Engineering::Computer science and engineering::Computing methodologies::Image processing and computer vision Diffusion Computer Graphics
الوصول للمادة أونلاين:	https://hdl.handle.net/10356/172665 https://openreview.net/forum?id=8JqINxA-2a
الوسوم:	إضافة وسم لا توجد وسوم, كن أول من يضع وسما على هذه التسجيلة!
المؤسسة:	Nanyang Technological University
اللغة:	English

الانترنت

https://hdl.handle.net/10356/172665
https://openreview.net/forum?id=8JqINxA-2a

UniD3: unified discrete diffusion for simultaneous vision-language generation

الانترنت

مواد مشابهة