UniD3: unified discrete diffusion for simultaneous vision-language generation
The recently developed discrete diffusion model performs extraordinarily well in generation tasks, especially in the text-to-image task, showing great potential for modeling multimodal signals. In this paper, we leverage these properties and present a unified multimodal generation model, which can p...
محفوظ في:
المؤلفون الرئيسيون: | , , , , , , , |
---|---|
مؤلفون آخرون: | |
التنسيق: | Conference or Workshop Item |
اللغة: | English |
منشور في: |
2023
|
الموضوعات: | |
الوصول للمادة أونلاين: | https://hdl.handle.net/10356/172665 https://openreview.net/forum?id=8JqINxA-2a |
الوسوم: |
إضافة وسم
لا توجد وسوم, كن أول من يضع وسما على هذه التسجيلة!
|
المؤسسة: | Nanyang Technological University |
اللغة: | English |