Сайт

Категория

Следующее приложение

ClipClap

Генерация подписей к изображениям с использованием кодировщика Clip и GPT2

О ClipClap

ClipClap - это революционный подход к генерации подписей к изображениям, который не требует дополнительной информации, такой как аннотации объектов, для создания подписей. Наша модель обучается быстро и эффективно, и способна производить результаты, сравнимые с современными моделями, даже на наборах данных с миллионами изображений. Мы используем предварительно обученную модель CLIP для создания семантических кодировок для изображений и объединяем ее с моделью языка, дообученной на конкретной задаче, для генерации правильной подписи. Альтернативным подходом является использование трансформерной архитектуры для сопоставляющей сети без использования GPT-2. Наша легкая модель все равно достигает результатов, сопоставимых с современными моделями на наборе данных nocaps.

Источник: https://github.com/rmokady/CLIP_prefix_caption

Скриншоты ClipClap

ClipClap - скриншот 1

Читать на английском