Сайт

Категория

Следующее приложение

GigaGAN

Синтез изображений из текста на большом масштабе

О GigaGAN

GigaGAN - это новая архитектура, которая значительно превосходит предыдущие ограничения GAN для производства ультра-HD изображений.

С 1 миллиардом параметров GigaGAN достигает низкого значения FID по сравнению с Stable Diffusion v1.5, DALL·E 2 и Parti-750M. Он генерирует выходные изображения по разрешению 512px за 0,13 с, что значительно быстрее диффузионных и авторегрессионных моделей, и наследует разделенное, непрерывное и управляемое латентное пространство GAN. Мы также обучаем быстрый апсемплер, который может генерировать изображения 4K из низкоразрешающих выходных данных моделей текст-к-изображению.

Особенности:

  • ✅ Авторы: POSTECH + CMU + Adobe ?
  • ✅ GAN-модель на миллиардах изображений миллиардов пикселей
  • ✅ 36× больше, чем StyleGAN, 6× больше, чем StyleGAN-XL
  • ✅ GAN-увеличение по тексту >> DALLE
  • ✅ Ультра HD изображения по разрешению 4К за 3,66 секунды

Читать на английском