Сайт

Категория

Следующее приложение

GPT-J

GPT-3 Democratized. Версия GPT-3 с открытым исходным кодом с 6 миллиардами параметров

Об GPT-J

GPT-J - это альтернатива GPT-3 от OpenAI с открытым исходным кодом. Модель обучена на The Pile и доступна для использования с помощью Mesh Transformer JAX. Теперь благодаря Eleuther AI каждый может скачать и использовать версию GPT-3 с 6 миллиардами параметров.

EleutherAI - создатели GPT-Neo.

GPT-J-6B показывает практически такую же производительность, как и 6,7B GPT-3 (или Curie) на различных задачах с нулевым обучением.

Оценка с нулевым обучением

Модели примерно отсортированы по производительности или по FLOPs, если они не доступны.

| Модель | Веса | Обучение FLOPs | LAMBADA PPL ↓ | LAMBADA Acc ↑ | Winogrande ↑ | Hellaswag ↑ | PIQA ↑ | Размер набора данных (ГБ) | |-----------------|---------|----------------|--- |--- |--- |--- |--- |-------------------| | Chance | ✔ | 0 | ~много | ~0% | 50% | 25% | 25% | 0 | | GPT-3-Ada‡ | ✘ | ----- | 9.95 | 51.6% | 52.9% | 43.4% | 70.5% | ----- | | GPT-2-1.5B | ✔ | ----- | 10.63 | 51.21% | 59.4% | 50.9% | 70.8% | 40 | | GPTNeo-1.3B‡ | ✔ | 3.0e21 | 7.50 | 57.2% | 55.0% | 48.9% | 71.1% | 825 | | Megatron-2.5B* | ✘ | 2.4e21 | ----- | 61.7% | ----- | ----- | ----- | 174 | | GPTNeo-2.7B‡ | ✔ | 6.8e21 | 5.63 | 62.2% | 56.5% | 55.8% | 73.0% | 825 | | GPT-3-1.3B*‡ | ✘ | 2.4e21 | 5.44 | 63.6% | 58.7% | 54.7% | 75.1% | ~800 | | GPT-3-Babbage‡ | ✘ | ----- | 5.58 | 62.4% | 59.0% | 54.5% | 75.5% | ----- | | Megatron-8.3B* | ✘ | 7.8e21 | ----- | 66.5% | ----- | ----- | ----- | 174 | | GPT-3-2.7B*‡ | ✘ | 4.8e21 | 4.60 | 67.1% | 62.3% | 62.8% | 75.6% | ~800 | | Megatron-11B† | ✔ | 1.0e22 | ----- | ----- | ----- | ----- | ----- | 161 | | GPT-J-6B‡ | ✔ | 1.5e22 | 3.99 | 69.7% | 65.3% | 66.1% | 76.5% | 825 | | GPT-3-6.7B*‡ | ✘ | 1.2e22 | 4.00 | 70.3% | 64.5% | 67.4% | 78.0% | ~800 | | GPT-3-Curie‡ | ✘ | ----- | 4.00 | 69.3% | 65.6% | 68.5% | 77.9% | ----- | | GPT-3-13B*‡ | ✘ | 2.3e22 | 3.56 | 72.5% | 67.9% | 70.9% | 78.5% | ~800 | | GPT-3-175B*‡ | ✘ | 3.1e23 | 3.00 | 76.2% | 70.2% | 78.9% | 81.0% | ~800 | | GPT-3-Davinci‡ | ✘ | ----- | 3.0 | 75% | 72% | 78% | 80% | ----- |

* представляют собой оценочные значения, сообщенные соответствующими авторами, все остальные числа предоставлены при выполнении lm-evaluation-harness с использованием выпущенных весов или доступа к API. Из-за незначительных различий в реализации, а также различной формулировки задачи с нулевым обучением, эти значения могут не быть прямо сравнимыми. См. этот блог-пост для получения дополнительной информации.

Модель Megatron-11B не предоставляет сопоставимых метрик, и несколько реализаций с использованием выпущенных весов не воспроизводят качество генерации и оценки. (см. 1 2 3) Поэтому оценка не была проведена.

Эти модели были обучены на данных, которые содержат возможное загрязнение тестового набора. Модели OpenAI GPT-3 не удалили повторяющиеся данные обучения для определенных тестовых наборов, в то время как модели GPT-Neo, а также эта модель обучены на The Pile, которая не была очищена от любых тестовых наборов.

Источник: https://github.com/kingoflolz/mesh-transformer-jax/blob/master/README.md

Читать на английском