Обучение робота-агента на основе повседневной деятельности человека

За последнее десятилетие или около того многие робототехники и учёные-информатики пытались разработать роботов, которые могут выполнять задачи в пространствах, населённых людьми; например, помогая пользователям готовить и прибираться. Чтобы справляться с домашними делами и другими ручными задачами, роботы должны уметь решать сложные задачи планирования, которые включают навигацию в окружающей среде и взаимодействие с объектами в определённой последовательности.
Хотя некоторые методы решения этих сложных задач планирования дали многообещающие результаты, большинство из них не позволяют роботам выполнять эти задачи так же хорошо, как это делают люди.
Исследователи из UT Austin и Facebook AI Research разработали структуру, которая могла бы более эффективно формировать поведение воплощённых агентов (они же – «интерфейсные» или «интеллектуальные агенты», взаимодействующие со средой через физическое тело в этой среде), используя эгоцентрические видео людей, выполняющих повседневные задачи. Статья, опубликованная на arXiv, представляет более эффективный подход к обучению роботов выполнять домашние обязанности и другие задачи, требующие взаимодействия.
«Главной целью этого проекта было создание воплощённых роботов-агентов, которые могут учиться, наблюдая за взаимодействием людей с окружающей средой, – говорит Тушар Нагараджан, один из исследователей. – Подходы обучения с подкреплением (RL) требуют миллионов попыток изучения интеллектуального поведения, поскольку агенты начинают со случайных попыток действий, в то время как подходы к имитационному обучению (IL) требуют от экспертов контроля и демонстрации идеального поведения агентов».
В отличие от роботизированных систем, при входе в новую среду люди могут легко выполнять задачи, в которых задействованы различные объекты. Таким образом, исследователи решили выяснить, могут ли воплощённые агенты научиться выполнять задачи в аналогичных средах, просто наблюдая за поведением людей.
Вместо того чтобы обучать агентов с помощью видеодемонстраций, помеченных людьми, сбор которых часто бывает дорогостоящим, исследователи хотели использовать эгоцентрические (от первого лица) видеоматериалы, показывающие, как люди выполняют повседневные действия, такие как приготовление еды или мытьё посуды. Эти видео легче собрать, и они более доступны, чем аннотированные демонстрации.
Чтобы получить эти «предварительные данные» (например полезную информацию о том, какие объекты нужно собрать перед выполнением задачи), модель, созданная исследователями, накапливает статистику о парах объектов, которые люди склонны использовать во время определённых действий. Данная модель напрямую обнаруживала эти объекты в эгоцентрических видеороликах из большого набора данных, используемого исследователями.
Впоследствии модель закодировала априорные значения, которые она приобрела в качестве вознаграждения в рамках обучения с подкреплением. По сути, это означает, что агент получает вознаграждение в зависимости от того, какие объекты он выбрал для выполнения данной задачи.
В отличие от априорных значений, рассматриваемых в ранее разработанных подходах, априорные значения, рассматриваемые в этой модели, также отражают взаимосвязь объектов в контексте действий, которые робот учится выполнять, а не просто их физическое совпадение (например, ложки могут быть рядом с ножами) или смысловое сходство (например, картофель и помидоры – похожие объекты).
Группа исследователей оценила модель, используя набор данных эгоцентрических видеороликов, в которых показаны люди, выполняющие повседневные дела и задачи на кухне. Результат: эта модель может использоваться для обучения домашних роботов более эффективно, чем другие ранее разработанные методы.
Исследователи предполагают, что в будущем новую структуру можно будет использовать для обучения различных физических роботов выполнению множества простых повседневных задач. Кроме того, её можно использовать для обучения помощников дополненной реальности (AR), которые могут, например, наблюдать, как человек готовит определённое блюдо, а затем обучать новых пользователей его приготовлению.
Подписывайтесь на журнал «Вестник ГЛОНАСС» и навигационный Telegram-канал