Код #Статьи

28 августа, 2024

Что такое машинное обучение и где оно полезно

В этой статье вы узнаете о технологии, благодаря которой появился ChatGPT и все нейросети.

Виктория Колеснева 

Copywriter of Skillbox CIS 

На страже информационного стиля и полезных статей. Опыт в копирайтинге — 16 лет. Работает с SEO и SMM контентом. Использует искусственный интеллект для написания текста, обучает нейросети через промты и работу с брендом.

На страже информационного стиля и полезных статей. Опыт в копирайтинге — 16 лет. Работает с SEO и SMM контентом. Использует искусственный интеллект для написания текста, обучает нейросети через промты и работу с брендом.

Как работает

Машинное обучение — это процесс, когда компьютеры учатся распознавать закономерности и делать прогнозы. Искусственный интеллект анализирует данные и накапливает опыт, подобно тому, как учатся люди. От рекомендаций фильмов на Netflix до распознавания лиц на смартфоне — за всем стоит машинное обучение.

Представьте, что вы дрессируете собаку. Вы обучаете ее разным командам. Например: «сидеть», «лежать», «ко мне». Вы хвалите питомца и даете лакомство, когда он правильно выполняет команду. Постепенно собака учится, запоминает и начинает понимать, что конкретная команда означает определенное действие.

Машинное обучение работает по похожему принципу. Только вместо собаки — компьютерная программа, которая учится на данных. Например, вы показываете ей фотографии разных предметов и она учится отличать их друг от друга. Чем больше данных вы даете, тем лучше она учится и тем точнее становится результат.

Машинное обучение тесно связано с искусственным интеллектом. ИИ — это широкое понятие, которое включает в себя разные технологии. Например, компьютерное зрение или обработку естественного языка, которые позволяют компьютерам «думать» и действовать как люди. Машинное обучение — это лишь один из инструментов для создания ИИ.

За год станете ML-инженером: получите математическую подготовку, освоите Python, научитесь работать с данными и создадите первые модели машинного обучения на курсе Machine Learning с нуля до Junior

Узнать больше

Как появилось

В 1959 году американский исследователь и сотрудник IBM Артур Самуэль создал программу, которая научилась играть в шашки. Она умела учиться на своих ошибках и постепенно становилась сильнее. Это было первое серьезное достижение в области машинного обучения.

В конце 1980-х годов в университете Карнеги-Меллон создали шахматную машину ChipTest. Она просчитывала до 50 000 ходов в секунду. ChipTest стала прототипом суперкомпьютера Deep Blue, который в 1996 году сыграл в шахматы с великим гроссмейстером Гарри Каспаровым и победил.

Deep Blue, в отличие от человека, не умел «чувствовать» игровые ситуации. Но мог проанализировать в разы больше ходов и вычислять, какой ход окажется выгодным. 

Deep Blue положил начало новому этапу в развитии машинного обучения. В 2011 году компания Google создала специальный отдел, занимающийся искусственным интеллектом — Google Brain. Спустя три года свои платформы по машинному обучению запустили Amazon и Microsoft. А Facebook представил алгоритм DeepFace, который распознавал лица людей.

Новые технологии, такие как GAN — генеративные состязательные сети и трансформеры, открыли новые возможности для создания искусственного интеллекта, который генерирует текст, изображения и видео.

💡 GAN — это технология машинного обучения, которая включает в себя два компонента: генератор и дискриминатор. Генератор создает новые данные. Например, изображения, имитируя настоящие. А дискриминатор пытается выяснить, какие данные настоящие, а какие искусственно созданы. Компоненты соревнуются и улучшаются. Генератор лучше создает реалистичные данные, а дискриминатор — распознает. 

 

Это как два художника, которые соревнуются друг с другом. Один художник создает изображения. Другой пытается определить, какие изображения созданы человеком, а какие через ИИ. Соревнуясь, оба художника становятся лучше.

Как обучается

  • Обучение с учителем. Представьте, что вы учите собаку выполнять команды. Сначала вы говорите «сидеть» и помогаете ей сесть, затем хвалите и даете лакомство. Постепенно пес понимает, что слово «сидеть» означает определенное действие и выполняет команду сам. При обучении с учителем алгоритму аналогично предоставляется набор данных, где каждая запись содержит примеры с правильными ответами — метками. Алгоритм учится на этих данных, чтобы потом самостоятельно классифицировать новые примеры;

💡 Метки — это как наклейки. Они указывают, какие данные принадлежат к той или иной категории. Представьте, что у вас есть коробка с фруктами и кто-то приклеивает ярлыки «яблоко», «банан», «апельсин» на каждый фрукт. Эти метки помогают алгоритму понять, как различать и классифицировать новые данные в будущем.

  • Обучение без учителя. Алгоритму предоставляется набор данных, но без меток. Алгоритм должен сам обнаружить закономерности и разделить данные на группы. Эти группы называются кластеры;

💡 Данные — набор информации, которая используется  для обучения модели.

💡 Модель — математическое описание, которое описывает связь между данными и ожидаемым результатом. Это как карта или схема, которая помогает понять, как данные связаны с результатом.

  • Обучение с подкреплением. Это обучение на основе проб и ошибок. Алгоритм получает награду за правильные действия и штрафы за неправильные. Например, компьютерная игра, где вы управляете персонажем, учится проходить уровни. Машинное обучение учится, получая награду за достижение цели и штрафы за столкновения с препятствиями.

💡 Алгоритм — набор инструкций, которые указывают модели, как учиться на данных и делать прогнозы.

Для машинного обучения эти алгоритмы и методы используют чаще всего:

  • Линейная регрессия. Прогнозирует значения непрерывной величины. Например, прогнозирование цены на недвижимость в зависимости от площади;

Представьте, что вы хотите предсказать рост человека по весу. У вас уже есть данные о росте и весе нескольких человек. Линейная регрессия строит линию, которая наилучшим образом описывает зависимость роста от веса. А потом использует эту линию для прогнозирования роста других людей.

  • Деревья решений. Группируют данные. Алгоритм деревьев решений создает серию вопросов для классификации объекта. Например, для разделения почты на спам и обычные письма;
  • Нейронные сети. Распознает изображения, обрабатывает естественный язык и прогнозирует постоянно меняющиеся данные. Например, погоду;
  • Кластеризация. Группирует объекты в кластеры на основе сходства. Например, для группировки клиентов интернет-магазина по покупательским предпочтениям.

Где используется

Машинное обучение используют крупные мировые компании. Amazon — для рекомендации товаров, Google — для улучшения поисковой выдачи, а Tesla — для автопилота в автомобилях. Рассмотрим применение в разных сферах:

Здравоохранение

  • Выполняет раннюю диагностику заболеваний. Алгоритмы машинного обучения анализируют снимки МРТ, КТ и рентгена, чтобы обнаружить признаки заболеваний на ранних стадиях. Это помогает врачам своевременно назначать лечение и повышает шансы на выздоровление;
  • Разработка новых лекарств. Машинное обучение ускоряет поиск новых лекарств, анализируя огромные объемы данных о химических соединениях и их взаимодействии с организмом.

Финансы

  • Обнаруживает мошенничество. Алгоритмы анализируют финансовые транзакции и выявляют подозрительные операции. Это защищает банковские счета от несанкционированного доступа. Например, в 2023 году Mastercard запустила специальную систему на основе машинного обучения для поиска мошенников;
  • Оценивает кредитные риски. Алгоритмы машинного обучения анализируют данные о заемщиках. Оценивают их платежеспособность и риск невозврата кредита.

Маркетинг

  • Персонализирует рекламу. Алгоритмы машинного обучения анализируют покупки, интересы и поведение пользователей в интернете. Так сервисы предлагают рекламу, которая подходит под интересы посетителей;
  • Автоматизирует маркетинговые кампании. Машинное обучение оптимизирует рассылки, настраивает рекламу и создает контент. Например, нейросеть анализирует поведение пользователей и угадывает, какие темы и форматы интересны аудитории. Это делает рассылки персонализированными. 

Также в создании контента машинное обучение помогает с идеями, обработкой больших массивов данных, поиском трендов и написанием текстов.

Автомобильная индустрия

  • Управляет автомобилем. Алгоритмы машинного обучения учатся управлять автомобилем. Автопилот анализирует дорожную обстановку, сигналы светофора и поведение участников движения;
  • Помогает водителям. Машинное обучение создает системы, которые предупреждают водителя о препятствиях на дороге. Система следит за полосой движения и автоматически тормозит в экстренных ситуациях; 
  • Ремонтирует и диагностирует автомобили. Алгоритмы машинного обучения анализируют данные о работе автомобиля. Так сервис прогнозирует поломки и предупреждает водителя о необходимости ремонта.

Другие сферы

  • Помогает в агрономии. Алгоритмы машинного обучения помогают фермерам оптимизировать полив, удобрение, сбор урожая. Так повышается урожайность и сокращаются расходы;
  • Обеспечивает безопасность. Машинное обучение используется для распознавания лиц и контроля доступа.

Плюсы и минусы

Машинное обучение — не идеальное, как и любая технология. Но разработчики уже работают над проблемами, которые мешают пользователям. Например, в Яндексе искусственный интеллект стараются обучать на качественной и проверенной информации. Для этого нанимают AI-тренеров, которые проверяют информацию для обучения.

Плюсы машинного обучения

  • Обработка больших объемов данных. С помощью машинного обучения можно «прочитать» большой объем информации. Человек не может освоить такой массив данных и найти скрытые закономерности;
  • Автоматизация рутинных задач. Например, машинное обучение автоматически сортирует письма в почтовом ящике на спам и важные сообщения; 
  • Повышение точности прогнозов. Машинное обучение предсказывает, какие товары будут пользоваться спросом и какие дороги будут перегружены в час пик. Примерный прогноз позволяет принимать правильные решения.

Минусы машинного обучения

  • Проблемы с качеством данных. Машинное обучение работает только с качественными данными. Если данные неверны, то и прогнозы будут неправильными. 
  • Вопросы этики и конфиденциальности. Важно использовать машинное обучение этично и ответственно, чтобы не нарушать права людей.

Алгоритмы бывают предвзятыми, если обучены на данных, которые содержат стереотипы о событиях и людях. Например, статья из желтой прессы, которая очерняет медийную личность — не лучшая информация для обучения алгоритмов.

Будущее машинного обучения. Полезные материалы от редакции Skillbox.by

Вокруг искусственного интеллекта ходит много мифов. Например, что нейросети отберут работу у айтишников и заменят человеческий труд. В интернете много не аргументированных предположений, поэтому делимся фактами о настоящем и будущем машинного обучения:

  • Масштабные изменения. Модели машинного обучения становятся сложнее — для обучения нужно использовать большие объемы данных. Например, языковая модель GPT-3, которая научилась писать статьи для газет, содержит 175 миллиардов параметров. Для сравнения — это больше, чем количество слов в Википедии. А сейчас есть уже более продвинутая GPT-4;

Поэтому компании активно инвестируют в мощные компьютеры и технологии, которые «кормят» модели огромными массивами информации.

  • Доступность. Многие компании делятся своими обученными моделями, которые можно использовать в разных проектах. Например, любой человек может подключить к своему аккаунту в соцсетях ChatGPT и нейросеть будет общаться за него;
  • Машинное обучение на всех устройствах. Вместо того, чтобы передавать все данные на серверы, разработчики МО начали интегрировать модели прямо в наши устройства. Например, скоро в устройства Apple встроят искусственный интеллект под названием Apple Intelligence. AI сможет отвечать на сообщения, генерировать эмодзи и суммаризировать входящие письма;
  • Новые возможности. Сейчас разработчики ищут пути внедрения МО в роботов и создания настоящих андроидов. Например, компания Figure создала робота-андроида со встроенной нейросетью. Он может общаться и выполнять команды. Например, приносить предметы человеку.

Для тех, кто хочет развивать искусственный интеллект и научится машинному обучению, собрали список полезных материалов.

Литература: 

  • «Elements of Statistical Learning: Data Mining, Inference, and Prediction. Second Edition» Джером Гарольд Фридман, Роберт Тибширани, и Тревор Хасти — для новичков в этой теме;
  • «Pattern Recognition and Machine Learning» Кристофер Бишоп — для любителей понять суть.

Блоги: 

  • Colah’s blog — блог для тех, кто уже прочитал пару книг по теме; 
  • learnopencv — личный блог разработчика о технической части МО с гайдами.

Игры: 

  • Kaggle и DrivenData — небольшие соревновательные игры для тренировки кодинга и работы с машинным обучением.

Осваивайте профессию «Machine Learning Engineer» со Skillbox

Специалист по Machine Learning, Data Scientist или ML-инженер анализирует большие объемы информации, разрабатывает модели машинного обучения, нейросети и создает большие GPT-подобные языковые модели. Спрос на таких специалистов есть везде: в бизнесе, медицине, промышленности и других отраслях.

Забрать доступ