GigaGAN
Синтез изображений из текста на большом масштабе
О GigaGAN
GigaGAN - это новая архитектура, которая значительно превосходит предыдущие ограничения GAN для производства ультра-HD изображений.
С 1 миллиардом параметров GigaGAN достигает низкого значения FID по сравнению с Stable Diffusion v1.5, DALL·E 2 и Parti-750M. Он генерирует выходные изображения по разрешению 512px за 0,13 с, что значительно быстрее диффузионных и авторегрессионных моделей, и наследует разделенное, непрерывное и управляемое латентное пространство GAN. Мы также обучаем быстрый апсемплер, который может генерировать изображения 4K из низкоразрешающих выходных данных моделей текст-к-изображению.
Особенности:
- ✅ Авторы: POSTECH + CMU + Adobe ?
- ✅ GAN-модель на миллиардах изображений миллиардов пикселей
- ✅ 36× больше, чем StyleGAN, 6× больше, чем StyleGAN-XL
- ✅ GAN-увеличение по тексту >> DALLE
- ✅ Ультра HD изображения по разрешению 4К за 3,66 секунды
Читать на английском