Сайт GPT-3 Alternative Large Language Models (LLMs) Google GShard

Google GLaM

Общая языковая модель

О Google GLaM

Google GLaM - это тип модели, который использует стратегию микстуры экспертов (MoE). Это означает, что у него есть отдельные подмодели (эксперты), каждая из которых настроена на различные входные параметры. Эксперты управляются сетью роутинга, которая определяет, какие из них активировать в зависимости от обрабатываемых данных. Для каждого анализируемого куска данных (обычно это слово или часть слова) сеть роутинга выбирает двух наиболее подходящих экспертов, чтобы работать с ним. В полной версии GLaM в общей сложности имеется 1,2 Т параметров, распределенных по 64 экспертам на слой MoE и 32 слоям MoE всего. Однако при выводе только часть этих параметров, примерно 97 млрд (8% от 1,2 Т), активируется для каждого предсказания токена.

Источник: https://ai.googleblog.com/2021/12/more-efficient-in-context-learning-with.html

Скриншоты Google GLaM

Читать на английском

Категория

Следующее приложение

Google GLaM

Общая языковая модель

О Google GLaM

Скриншоты Google GLaM

Похожие приложения