DeepMind RETRO
Улучшение языковых моделей с помощью извлечения из триллионов токенов
О DeepMind RETRO
DeepMind RETRO - это техника, используемая для увеличения эффективности авторегрессивных языковых моделей, путем принятия во внимание фрагментов текста из большой базы данных токенов, общей суммой в 2 триллиона, и выявления любых сходств со словами в предшествующем им предложении. Этот метод, известный как Извлекающийся Улучшенный Трансформатор (Retro), доказал свою эффективность по сравнению с GPT-3 и Jurassic-1 в Pile, несмотря на гораздо меньшее количество параметров. После доработки Retro может использоваться для выполнения сложных задач, таких как ответ на вопросы.
Источник: https://www.deepmind.com/publications/improving-language-models-by-retrieving-from-trillions-of-tokens
Скриншоты DeepMind RETRO
Читать на английском