Новый подход к моделированию обнаружения AV-объектов

Функционирование беспилотных автомобилей и других автономных транспортных средств (AV) зависит от комбинации датчиков изображения и алгоритмов обнаружения объектов, позволяющих избегать другие транспортные средства, пешеходов и препятствий на дороге. Чтобы хорошо работать в различных условиях вождения, эти модели обнаружения объектов должны объединять информацию от различных датчиков, таких как камеры RGB, LiDAR и тепловизионные камеры, с помощью метода, известного как «глубокое объединение датчиков».
Однако, как и другие алгоритмы глубокого обучения, модели обнаружения объектов требуют огромного количества данных и синхронизированных наборов данных от каждого потока датчиков. Кроме того, при использовании существующих методов любые модификации определённого типа датчика требуют переобучения всей модели всех датчиков. Эти факторы создают проблемы при сборе данных, что приводит к увеличению времени вычислений и финансовых затрат, а также препятствует гибкости и адаптируемости беспилотных транспортных средств при распознавании объектов.
Исследователи из Калифорнийского технологического института продемонстрировали новый подход к моделированию обнаружения AV-объектов, который более эффективен, требует меньше обучающих данных и действует с большей точностью в реальных условиях. Эта новая модель использует существующие модели обнаружения объектов, которые были предварительно обучены на больших одномодальных наборах данных от датчиков, таких как камеры RGB и тепловизоры, в различных погодных условиях.
Исследователи объединили две предварительно обученные модели обнаружения объектов, используя адаптивные к сцене модули объединения. Один детектор принимает RGB или цветное изображение, а другой — тепловое изображение. Обнаружено, что, при ограничении объёма машинного обучения, происходящего в процессе объединения моделей, небольшим количеством параметров в форме этих объединённых модулей, не понадобится так много обучения, чтобы быстро получить результаты, превосходящие существующие.
Несмотря на специфические методы (например, RGB-изображение и тепловизионное изображение), используемые при тестировании, этот подход также применим и к другим глубоким задачам мультимодального слияния датчиков.
В настоящее время многие исследователи объединяют модальности датчиков, обучая каждый параметр вместе. Обучая всё целиком, им требуется больше обучающих данных, а также больше времени на обучение, чтобы избежать проблемы переобучения. Это проблема, при которой модель машинного обучения слишком хорошо изучает свои обучающие данные, включая любые ошибки или случаи смещения входных данных, что приводит к проблемам с неожиданными объектами или условиями.
Напротив, метод, который предлагают учёные, проще: вместо обучения модели глубокого объединения датчиков с нуля, этот новый подход собирает несколько одномодальных моделей обнаружения объектов, а затем распределяет обучение по объединению только определённого набора параметров, содержащихся в небольших объединённых модулях.
Ещё одной мотивацией этой работы является разработка адаптивной системы восприятия для беспилотных автомобилей и других беспилотных автомобилей. Лёгкие и простые в обучении объединённые модули позволяют нам обучать и переключать определённые параметры на основе информации о сцене, что даёт модели более адаптивные возможности для конкретной сцены.
Эти «сцены» отражают различные погодные и световые условия и действуют как разные режимы «видения» для автономных транспортных средств. Например, во время ночной съёмки датчики изображения RGB на беспилотном автомобиле перестанут работать. В этом случае транспортному средству лучше полагаться на другой тип датчика, например на тепловидение. Подход, подробно описанный в статье, использует машинное обучение для обучения модели обнаружения объектов тому, как лучше всего сочетать различные модальности датчиков в зависимости от конкретной сцены или условий погоды/освещения. Вместо AV, который учится «видеть» на основе глобального правила, использование информации о сцене в процессе обучения обеспечивает сменную линзу «видения», которая наиболее актуальна и информативна для текущих условий.
Адаптивность предложенной модели заключается в её способности активно выбирать, как обрабатывать информацию в зависимости от текущих условий. Когда AV попадает в новую среду, модуль обнаружения объектов эффективно выбирает соответствующий модуль объединения, что позволяет быстро адаптироваться к наиболее подходящей сцене.
В исследовании показано, что модель эффективна только с 25% всего набора RGB/тепловых данных, достигая результатов, почти аналогичных сложным архитектурам, требующим сквозного обучения. Избегая сложности, этот новый подход приводит к созданию модели восприятия автономного транспортного средства, которая более эффективна и адаптируема на дороге.