WIT by Google AI
Набор данных изображений и текста на основе Википедии для многоязычного многослойного машинного обучения
О WIT от Google AI
Набор данных WIT (Wikipedia-based Image Text) состоит из огромной коллекции данных, включающей более 37 миллионов пар изображений и текста на 100+ языках. Он был разработан для помощи машинам в идентификации взаимоотношения между изображениями и словами.
Мотивация
Исследования в области многослойных визуальных лингвистических моделей требуют большого набора данных для успешного применения этой технологии. Созданием WIT Google AI намерено предоставить широкий набор данных, который выходит за рамки работы с английским языком и имеет потенциал достижения прорывов в развитии многоязычного понимания через изображения.
Таким образом, WIT был разработан с целью предоставления высококачественного набора данных с применением строгих фильтров. Он включает в себя 37,6 миллиона пар изображений и текста и охватывает 108 языков, причем для каждого из них имеется более 12 тысяч примеров (53 из них имеют более 100 тысяч пар изображений и текста).
Sljf
Скриншоты WIT от Google AI
Видео WIT от Google AI
Читать на английском