Технологии

Наука о данных, машинное обучение и искусственный интеллект – попытка систематизации

6 Июля 2020
Наука о данных, машинное обучение и искусственный интеллект – попытка систематизации

«Можно ли их различить один от другого?» – задаётся вопросом Бушра Анджум, доктор философии, управляющая аналитикой данных в стартапе Doximity из Сан-Франциско.

«С постоянно растущим объёмом, разнообразием и скоростью доступных данных научные дисциплины предоставили нам передовые математические инструменты, процессы и алгоритмы, позволяющие нам использовать эти данные значимыми способами. Наука о данных (DS), машинное обучение (ML) и искусственный интеллект (AI) – три такие дисциплины. Часто возникает вопрос: в чём разница между DS, ML и AI? Можно ли их вообще сравнивать? В зависимости от того, с кем вы разговариваете, сколько лет опыта у вашего собеседника, над какими проектами он работал, вы можете получить совершенно разные ответы на данный вопрос. В этой статье я попытаюсь ответить на него, основываясь на своём исследовательском, академическом и отраслевом опыте, а также по результатам многочисленных бесед на эту тему. Однако это всё ещё мнение одного человека, и его следует рассматривать именно как таковое. Эта статья призвана обеспечить концептуальное разграничение между этими тремя областями; поэтому делаются обобщения, и, безусловно, будут представлены крайние случаи.

Если вы рассматриваете DS, ML или AI как набор инструментов и технологий, то будет почти невозможно точно их различить. Они накладываются друг на друга; однако они не являют собой строгое подмножество друг друга. Например, если кто-то использует алгоритм «кластеризации», они могут делать работу с помощью либо DS, ML или AI, или использовать комбинации ML+DS, DS+AI, ML+AI, или сразу все три! Я бы предложила рассмотреть альтернативный способ определения этих областей, отдельно от инструментов и технологий и привязывая их к конечной цели. Несмотря на то, что они могут использовать дублирующий набор навыков, инструментов и технологий, DS, ML и AI могут быть дифференцированы по их направленности на достижение различных конечных целей.

В общем виде они соответствуют таким целям:

  • Наука о данных – это использование данных для получения ценности для организации (денег, роста, репутации и т.д.).
  • Машинное обучение – это использование данных для получения оптимизированных выводов и прогнозов.
  • Искусственный интеллект – это использование данных для передачи машинам решений, подобных человеческим.

Из определений легко увидеть, что эти поля перекрываются довольно интенсивно. Например, способность принимать решения, подобные человеческим, может включать в себя, помимо всего прочего, лучшие выводы. Создание ценности для организации может включать в себя создание цифровых агентов с человеческим подходом к принятию решений. Точно так же, создавая обучающие модели для получения более точных прогнозов, можно работать с метриками, которые обеспечат наибольшую ценность для организации. Как вы можете себе представить, границы между этими тремя дисциплинами путаются, и мы часто используем одну из них в служении другой. Именно такие вопросы как «зачем» вы это делаете, «что» вы делаете с данными, могут помочь определить, следует ли ваша текущая работа быть классифицирована как наука о данных, машинное обучение или искусственный интеллект. Ещё один момент, который следует иметь в виду, заключается в том, что в науке о данных почти всегда есть человеческий агент. Вы можете услышать: «этот компьютер работает с алгоритмами машинного обучения» или: «этот цифровой агент демонстрирует искусственный интеллект», но вы не услышите: «эта машина занимается наукой о данных». Наукой о данных практически всегда занимается человек.

Ниже мы рассмотрим упрощённый пример, чтобы свести эти понятия вместе.

Рассмотрим медицинское учреждение, которое исследует создание вспомогательных роботов для пожилых пациентов. Задача роботов состоит в том, чтобы поддерживать пожилого пациента во время ходьбы, когда человеческий уход недоступен. Робот должен знать, когда человек встаёт, чтобы успеть подсуетиться и помочь тому в его действии. Этот момент можно определить, наблюдая за движениями рук и ног. Медицинское учреждение передаёт этот проект на аутсорсинг другой компании, попросив её разработать алгоритм (модель), который может сделать точные прогнозы о намерении человека встать. Это можно сделать, тренируясь на изображениях и видео, чтобы предсказать, какие движения рук и ног могут указывать на то, что человек встаёт. Это проект машинного обучения.

Как только человек встаёт, задача робота – помочь ему в ходьбе. Каков наилучший способ помочь? Что бы сделал хорошо обученный человек-воспитатель в такой ситуации? Он подошёл бы ближе к человеку, предложили бы ему одну или обе руки или кисти, чтобы опереться на них, исходя из того, какая помощь требуется пациенту для ходьбы. Кроме того, сиделка будет иметь мягкую хватку для хрупкого человека и более твёрдую хватку для тучного человека с ногами, поставленными на землю. Возможность роботов имитировать поведение хорошо обученного человека-воспитателя – это область искусственного интеллекта.

Теперь рассмотрим, какое медицинское учреждение хотело бы определить, стоит ли продолжать инвестировать в данный проект. Это определение может быть сделано путём сбора данных из различных источников, таких как уровень травматизма пожилых людей, рабочее время и заработная плата человека, осуществляющего уход, снижение уровня травматизма за счёт использования новых роботов, затраты на обучение роботов, уровень внедрения технологий, экономия медицинских расходов за счёт снижения травматизма и т.д. После того как данные интегрированы, смоделированы и проанализированы, можно дать несколько рекомендаций медицинскому учреждению: например, вспомогательные роботы дают 80 % экономии, и учреждение может окупить свои инвестиции через 5 лет (к примеру). Этот процесс, который начинается с данных и заканчивается ценными идеями для лиц, принимающих решения, – наука о данных.

Я надеюсь, что в следующий раз, когда вы посмотрите на эти термины, вы будете смотреть глубже, чем инструменты и технологии, которые они используют. Инструменты и технологии развиваются со временем; цели работ сохраняются».


Подписывайтесь на журнал «Вестник ГЛОНАСС» и навигационный канал на TamTam

Короткая ссылка:  vestnik-glonass.ru/~rTFm5
22.04.2024
На базе ФГУП «Всероссийский научно-исследовательский институт физико-технических и радиотехнических измерений» (ВНИИФТРИ) открыли уникальный многофункциональный метрологический бассейн, который поможет кратно повысить точность измерений.
19.04.2024
Отечественные разработчики создали устройство высокоточной навигации, которое уже тестируется в «умном» сельском хозяйстве, до конца года его планируют протестировать на море. Об этом сообщил генеральный директор ГП КС Алексей Волин на встрече с представителями индустрии в рамках Демо-дня ИЦК «Спутниковая связь» в Великом Новгороде.
18.04.2024
Космическая сфера становится всё более перегруженной и спорной, поэтому военные осознают роль, которую инновации и возможности частного сектора будут играть в стремлении достигнуть превосходства США в космосе. Используя скорость, гибкость и технологические достижения коммерческих партнёров, космические силы стремятся создать более устойчивую, распределённую и эффективную космическую архитектуру, которая сможет сдерживать противников и поддерживать объединённые силы по всему спектру конфликтов.
15.04.2024
В ходе СВО противник активно использует терминалы американской коммерческой многоспутниковой системы связи Starlink, несмотря на то, что изначально эта система создавалась исключительно для гражданского пользования. Применение ВСУ коммерческих диапазонов частот создает трудности для наших военных, но стоящие на вооружении войск РЭБ системы способны подавлять действие иностранной аппаратуры. Об этом заявил начальник войск радиоэлектронной борьбы Вооруженных сил РФ генерал-лейтенант Юрий Ласточкин.

СТАТЬИ ГЛОНАСС

Необходим поиск отечественных специалистов в области кибербезопасности сельского хозяйства
Перспективы реализации дорожной карты одного из направлений Национальной технологической инициативы (НТИ) в области сельского хозяйства, по просьбе журнала «Вестник ГЛОНАСС», оценил эксперт в навигационно-информационной сфере Семён Видный. В современных, быстроизменяющихся условиях особого решения требуют вопросы безопасности (направление SafeNet), тем более на таком значимом для государства агросекторе. В этом направлении на данный момент – огромное количество профессиональных участников. Но большинство из них используют иностранные наработки, что в настоящий момент и на перспективу неприемлемо. Также все профессионалы никогда не занимались этим специфическим сектором экономики – сельским хозяйством. Так что здесь придётся ещё поискать участников.
Аграриям предстоит работать в одной системе координат
Как известно, основой современного цифрового агрокомплекса является картогорафирование. Семён Видный, эксперт в области применения современных навигационно-информационных технологий в сельском хозяйстве поделился с читателями журнала «Вестник ГЛОНАСС» с кругом решаемых проблем при обработке массивов картографических данных. Таким образом, выяснилось, что все используют данные в различных системах координат, но пытаются укладывать их на одну картографическую основу и, соответственно, получают нестыковки и ошибки. Всё это приводит к тому, что используемые данные из Роскадастра, из Центров химизации и от высокоточных источников (данные дистанционного зондирования Земли, данные с беспилотников и высокоточных навигационных или геодезических приборов) не состыковываются друг с другом и только вводят в заблуждение сельхозтоваропроизводителей и собственников сельхозземель. И это также отражается на отношениях со смежными землепользователями.