Сайт

Категория

Следующее приложение

SayCan by Google

Основы языка в возможностях роботов

О SayCan by Google

PaLM-SayCan - это первая реализация, которая использует масштабные языковые модели для планирования работы реального робота.

Представьте себе робота, работающего на кухне, способного выполнять навыки, такие как "поднять кофейную чашку" или "пойти к раковине". Чтобы заставить робота использовать эти навыки для выполнения сложной задачи (например, "я пролил свой напиток, не могли бы вы помочь?"), пользователь может вручную разбить ее на шаги, состоящие из этих атомарных команд. Однако это было бы чрезвычайно утомительно. Языковая модель может разбить высокоуровневую инструкцию ("я пролил свой напиток, не могли бы вы помочь?") на подзадачи, но она не сможет сделать это эффективно, если не будет иметь контекста того, на что способен робот с учетом его возможностей, текущего состояния робота и его окружения.

При запросе существующих больших языковых моделей, таких как GPT-3, мы видим, что языковая модель, запрошенная с помощью "я пролил свой напиток, не могли бы вы помочь?", может ответить "Вы можете попробовать использовать пылесос" или "Извините, я не хотел этого делать".

SayCan против GPT-3

Хотя эти ответы звучат разумно, их выполнение невозможно с учетом возможностей робота в его текущей среде.

Основной принцип, который мы используем для связи LLM (языковых моделей) с физическими задачами, заключается в том, чтобы заметить, что, помимо запроса LLM на простое интерпретирование инструкции, мы можем использовать его для оценки вероятности того, что отдельный навык продвигает выполнение высокоуровневой инструкции. Более того, если у каждого навыка есть сопутствующая функция доступности, которая количественно оценивает вероятность успеха этого навыка в текущем состоянии (например, изученная функция значения), его значение можно использовать для взвешивания вероятности навыка.

После выбора навыка мы выполняем его на роботе, процесс продолжается путем итеративного выбора задачи и добавления ее к инструкции. Практически мы структурируем планирование как диалог между пользователем и роботом, в котором пользователь предоставляет высокоуровневую инструкцию, например: "Как ты мог бы принести мне банку Coca-Cola?", а языковая модель отвечает с явной последовательностью, например: "Я бы: 1. Нашел банку Coca-Cola, 2. Поднял банку Coca-Cola, 3. Принес ее тебе, 4. Готово". В краткости, имея высокоуровневую инструкцию, SayCan объединяет вероятности языковой модели (представляющей вероятность того, что навык полезен для инструкции) с вероятностями функции значения (представляющей вероятность успешного выполнения этого навыка) для выбора навыка для выполнения. Это дает навык, который возможен и полезен. Процесс повторяется, добавляя выбранный навык к ответу робота и снова запрашивая модели, пока выходной шаг не будет завершен.

Источник: https://say-can.github.io/

SayCan by Google скриншоты

SayCan by Google - скриншот 1

Читать на английском