Беспилотные автомобили учатся читать язык тела людей на улице

Четырёхполосная улица сужается до двух полос, чтобы вместить рабочих, ремонтирующих большую выбоину. Один рабочий свободно держит в левой руке знак «стоп», а правой машет машинам, чтобы проезжали. Люди-водители не думают дважды о том, следовать ли жесту или знаку; они плавно движутся вперёд, не останавливаясь.
Однако эта ситуация, скорее всего, остановит автономный автомобиль. Он бы понял стоп-сигнал и отреагировал, но этот жест рукой? Это намного сложнее.
Водители, люди и компьютеры, ежедневно сталкиваются с этой и гораздо более сложными ситуациями, ключом к которым является чтение языка тела. Рассмотрим угол городской улицы: пешеход, готовый перейти дорогу на светофор, останавливается, чтобы проверить свой телефон, и машет вперед поворачивающей направо машине. Другой пешеход поднимает руку, чтобы помахать другу, стоящему напротив, но продолжает двигаться. Водитель-человек расшифрует эти жесты одним взглядом.
Чтобы безопасно и беспрепятственно преодолевать такие препятствия, не прерывая поток транспорта, необходимо, чтобы автономные транспортные средства понимали общие движения рук, используемые водителями в непредвиденных ситуациях, а также жесты и язык тела пешеходов, спешащих по своим делам. Это сигналы, на которые люди реагируют без особых размышлений, но они представляют собой проблему для компьютерной системы, которая всё ещё изучает окружающий мир.
Разработчики автономных транспортных средств уже несколько лет работают над тем, чтобы научить беспилотные автомобили понимать хотя бы некоторые основные жесты рук, изначально ориентируясь на сигналы велосипедистов. Как правило, разработчики полагаются на машинное обучение, чтобы улучшить способность транспортных средств определять реальные ситуации и понимать, как с ними справляться. Но моделям машинного обучения не всегда хватает обучающих данных.
В Cruise нашли творческое решение для пробела в данных: захват движения (или mo-cap) человеческих жестов — метод, который разработчики игр используют для создания персонажей. Во-первых, команда по сбору данных решила составить исчерпывающий список способов, с помощью которых люди используют свое тело для взаимодействия с миром и с другими людьми — например, при вызове такси, разговоре по телефону во время прогулки или выходе на улицу. Начали с движений, которые автономное транспортное средство может ошибочно принять за приказ, предназначенный для себя, — например, пешеход, машущий другу рукой. Затем перешли к другим жестам, совершаемым в непосредственной близости от автомобиля, но не направленным на него, таким как парковщики, машущие машинами на полосе рядом с автомобилем в гараж, и строители, держащие табличку с просьбой временно остановить автомобили.
В конце концов, был составлен первоначальный список из пяти ключевых сообщений, которые передаются с помощью жестов: остановись, иди, поверни налево, поверни направо и то, что мы называем «нет», то есть обычные движения, не имеющие отношения к прохождению. Конечно, жесты, которые люди используют для отправки этих сообщений, неоднородны, поэтому разработчики с самого начала знали, что набор данных должен содержать гораздо больше, чем пять примеров.
Для создания этого набора данных потребовалось использование технологии захвата движения. Существует два типа систем Mo-Cap — оптические и неоптические. В оптической версии mo-cap используются камеры, распределённые по большой сетчатой структуре, окружающей сцену; видеопотоки с этих камер можно использовать для триангуляции трёхмерных положений визуальных маркеров на полном костюме, который носит актёр. Существует несколько вариантов этой системы, которые могут производить чрезвычайно подробные снимки, в том числе выражения лица. Это тот тип, который позволяет киноактерам изображать нечеловеческих персонажей, как в фильме 2009 года «Аватар», и позволяет игровой индустрии записывать движения спортсменов для разработки видеоигр на спортивную тематику.
Однако оптический захват движения должен выполняться в студии со сложной многокамерной установкой. Поэтому вместо этого была выбрана неоптическая, сенсорная версия захвата движения. Эта технология, основанная на микроэлектромеханических системах (МЭМС) является портативной, беспроводной и не требует специального студийного пространства.
Каждый из костюмов Mo-Cap включает в себя пакеты с 19 датчиками, прикрепленными к ключевым точкам тела, включая голову и грудь, а также бедро, плечо, плечо, предплечье и ногу. Каждая упаковка размером с монету содержит акселерометр, гироскоп и магнитометр. Все они подключены к ремню с аккумуляторной батареей, шиной управления и Wi-Fi. Данные датчиков передаются по беспроводной сети на ноутбук со специальным программным обеспечением, которое позволяет инженерам просматривать и оценивать данные в режиме реального времени.
Пять добровольцев с разными характеристиками тела, включая различия в росте, весе и поле, начинали с того, что принимали Т-позу (стоя прямо, ноги вместе и руки в стороны), чтобы откалибровать систему движения. Оттуда актер делал один жест за другим, перемещаясь по списку жестов. Актеров также просили выразить разную интенсивность. Например, интенсивность была бы высокой для жеста, сигнализирующего о срочной остановке автомобиля, который едет слишком быстро в зоне строительства. Интенсивность будет ниже для движения, указывающего на то, что автомобиль должен замедлиться и постепенно остановиться. В итоге получилось 239 тридцатисекундных клипов.
Как только автомобили будут обучены на наших данных, полученных с помощью захвата движения, они будут лучше подготовлены для навигации по различным сценариям вождения в городе. Одним из таких случаев является дорожное строительство. Используя систему распознавания жестов, наши автомобили смогут безопасно маневрировать вокруг нескольких рабочих, понимая их соответствующие жесты рук.
Обучение беспилотных автомобилей пониманию жестов — это только начало. Эти системы должны обнаруживать больше, чем просто основные движения человека. Начали тренировать системы, чтобы они понимали, как люди несут или толкают другие предметы, например велосипед. Это важно, поскольку поведение человека, толкающего велосипед, обычно отличается от поведения человека, едущего на велосипеде.
Планируется также расширить набор данных, чтобы помочь автомобилям лучше понимать жесты велосипедистов — например, левая рука, направленная вверх, с углом 90 градусов в локте означает, что велосипедист собирается повернуть направо; правая рука, направленная прямо вверх, означает то же самое. Автомобили уже распознают велосипедистов и автоматически снижают скорость, освобождая для них место. Однако знание того, что означают их жесты, позволит автомобилям убедиться, что они дают велосипедистам достаточно места для выполнения сигнального маневра, не останавливаясь полностью и не создавая ненужной пробки.
Подписывайтесь на журнал «Вестник ГЛОНАСС» и навигационный Telegram-канал