Сайт

Категория

Следующее приложение

GLM-130B

Открытая предварительно обученная модель с поддержкой двух языков

О модели GLM-130B

GLM-130B - это открытая предварительно обученная двуязычная (английский и китайский) двунаправленная модель с плотными слоями, содержащая 130 миллиардов параметров и предварительно обученная с использованием алгоритма общего языкового моделирования (General Language Model - GLM). Она была обучена на более чем 400 миллиардах текстовых токенов (по 200 миллиардов для английского и китайского языков) и обладает впечатляющими возможностями.

Она разработана для поддержки задач вывода с использованием 130 миллиардов параметров на одном сервере A100 (40G * 8) или V100 (32G * 8). С использованием квантования INT4, требования к аппаратному обеспечению могут быть сведены к одному серверу с 4 * RTX 3090 (24G) с практически отсутствующим ухудшением производительности. На 3 июля 2022 года модель GLM-130B была обучена на более чем 400 миллиардах текстовых токенов (по 200 миллиардов для английского и китайского языков) и имеет следующие уникальные особенности:

Особенности модели GLM-130B

  • Двуязычность: поддерживает английский и китайский языки.
  • Производительность (EN): лучше, чем у моделей GPT-3 175B (+4,0%), OPT-175B (+5,5%) и BLOOM-176B (+13,0%) на задачах LAMBADA, и незначительно лучше, чем у модели GPT-3 175B (+0,9%) на задаче MMLU.
  • Производительность (CN): значительно лучше, чем у модели ERNIE TITAN 3.0 260B на 7 нулевых CLUE-датасетах (+24,26%) и 5 нулевых FewCLUE-датасетах (+12,75%).
  • Быстрый вывод: обеспечивает быстрый вывод на серверах с использованием SAT и FasterTransformer (до 2,5 раза быстрее) на одном сервере A100.
  • Воспроизводимость: все результаты (более 30 задач) могут быть легко воспроизведены с использованием открытого кода и контрольных точек модели.
  • Кросс-платформенность: поддерживает обучение и вывод на платформах NVIDIA, Hygon DCU, Ascend 910 и Sunway (скоро будет выпущена).

Читать на английском