GPT-4chan
Текстовый генератор на основе данных с доски /pol/ на 4chan
О GPT-4chan
Создатель GPT-4chan работал три с половиной года, чтобы создать модель языка, изучив более 134,5 миллиона сообщений с доски /pol/ на 4chan.
Структура тредов доски была внедрена в программу, так что был создан искусственный интеллект, способный писать на /pol/ таким образом, что его невозможно отличить от настоящего человека.
Описание модели
GPT-4chan - это модель языка, которая была дообучена на основе GPT-J 6B, используя данные с доски Politically Incorrect на 4chan в течение 3,5 лет.
Обучающие данные
GPT-4chan был дообучен на наборе данных "Raiders of the Lost Kek: 3.5 Years of Augmented 4chan Posts from the Politically Incorrect Board".
Процедура обучения
Модель была обучена в течение 1 эпохи в соответствии с руководством по дообучению GPT-J.
Предполагаемое использование
GPT-4chan предназначен для воспроизведения текста на основе данных, на которых он был обучен, которые представляют собой дискуссии из анонимных онлайн-сообществ на политические темы. Он также может использоваться для анализа дискурса в таких сообществах и имеет потенциальные применения в задачах, таких как обнаружение токсичности, так как первоначальные эксперименты показали многообещающие результаты без предварительного обучения при сравнении вероятности строки в GPT-4chan с вероятностью строки в GPT-J 6B.
GPT-4chan скриншоты
Читать на английском