Сайт

Категория

Следующее приложение

Google GShard

Масштабирование гигантских моделей с помощью условного вычисления и автоматического разделения

О Google GShard

Google разработал систему для увеличения размера языковых моделей перевода с помощью условного вычисления и автоматического разделения. В статье обсуждается успешное применение этой системы к модели из 600 миллиардов параметров, которая обучалась на 2048 ядрах TPU v3.

Масштабирование нейронных сетей является одним из ключевых факторов для улучшения качества моделей машинного обучения. Несмотря на преимущества данного подхода, существуют проблемы, включая затраты на вычисления, простоту программирования и эффективную реализацию на различных устройствах. GShard - это модуль, состоящий из набора легких аннотационных API и расширения для компилятора XLA. Эта система позволяет использовать широкий диапазон параллельных вычислительных паттернов без необходимости значительных изменений в существующем коде модели. GShard позволил Google масштабировать многоязычную модель перевода до более чем 600 миллиардов параметров с помощью автоматического разделения. Результаты показали, что модель может быть эффективно обучена на 2048 ускорителях TPU v3 за всего лишь четыре дня, при этом давая лучшее качество перевода для 100 языков на английский, чем любая предыдущая модель.

Читать статью: https://arxiv.org/pdf/2006.16668.pdf

Читать на английском