
Содержание:
Наука о данных
Первое представление о том, что такое Data Science, дает буквальный перевод словосочетания. Дата сайнс — «наука о данных» или «наука работы с данными». Если обобщить, то все естественные науки основаны на сборе, хранении и анализе информации с дальнейшей систематизацией и выводами. На основании которых уже делаются гипотезы и строятся прогнозы. Именно прогнозная модель и есть результат работы специалиста по дата сайнс, которыми в той или иной степени были даже Архимед и Ньютон.
Но сотни лет назад и в наше время объемы информации отличаются в тысячи и тысячи раз — сегодня анализировать приходится большое количество данных. Big Data, огромный информационный массив. Чтобы предположить, что у земли есть гравитационное поле, Исааку Ньютону потребовалось зафиксировать и проанализировать факт падения яблока с ветки на землю. А чтобы спрогнозировать количество человек, которые захотят купить отечественный автомобиль дороже двух миллионов рублей в первой декаде будущего года, понадобится проанализировать огромный поток информации с помощью различных инструментов, включая машинное обучение и его высшую ступень — искусственный интеллект. С такими объемами информации и средствами автоматизации и работает Data Scientist — ученый-эксперт в сфере аналитической и статистической работы с большими массивами данных.

Data Science стоит на стыке нескольких классических и новых наук: математики, статистики, анализа и предсказательной аналитики, машинного обучения, Big Data и пр. Такое междисциплинарное поле позволяет достигать нужных результатов — структурировать данные, составлять на их основе математические алгоритмы и представлять прогнозные модели для принятия информированных и взвешенных решений.

Отточите навыки на реальных проектах и станьте востребованным специалистом на курсе Data Scientist с нуля до Junior
Узнать большеИз чего состоит Data Science
Дата сайнс делится на три составляющих: сбор и хранение, обработка и анализ данных. Рассмотрим каждый из компонентов.
Сбор и хранение данных. Строим фундамент
Чтобы обработать и проанализировать информацию, ее необходимо собрать. Поэтому сбор — первый этап в работе Data Scientist. От полноты релевантности и репрезентативности собранных данных напрямую зависит конечный результат.
Для сбора информации дата сайентист использует различные инструменты. Как давно известные, так и ультрасовременные:
- Опросы и вовлечения — классические телефонные опросы, бумажные анкеты, онлайн-формы, интернет-квизы;
- Данные учебных, медицинских и социальных организаций;
- Инструменты сбора интернет-статистики — датчики на сайтах, вебвизоры, автоматизированные технологии веб-скрейпинга (ред.: получения данных непосредственно со страниц интернет-сайтов), «пиксели» в некоторых соцсетях;
- Обратная связь, полученная от электроники и бытовой техники, работающих по принципу IoT (интернета вещей), GPS-устройств;
- Отчеты и базы данных компаний, банков, интернет-магазинов.

Список можно продолжать бесконечно. Чем выше квалификация эксперта по Data Science, тем больше будет инструментов в его профессиональном арсенале.
Не менее важно обеспечить и надлежащее хранение Big Data. Для этой задачи используются:
- Data Warehouse (склад данных) — специализированные системы управления базами данных. Информация туда поступает из разных источников, проходя через фильтрацию и структуризацию. Упрощенно такую базу можно назвать набором таблиц с данными и связями. Наиболее известные СУБД: ClickHouse, Greenplum, Exasol, Teradata, Vertica.
- Data Lake (озеро данных) — огромное хранилище для «сырых», несортированных данных разных типов без какого-либо порядка и сортировки. Там может быть все — от вордовских документов и рекламных роликов до выгрузок из CRM-систем.
Про хранилища данных написаны отдельные, серьезные и не всегда понятные неподготовленному пользователю материалы — статьи и целые книги. Сейчас необходимо понять, что это сложный, ответственный и важный процесс. Как правило, работа с большими данными в Data Science начинается с «озера».
Обработка данных. Возводим стены
Чтобы повысить пользу имеющейся информации, ее необходимо предварительно обработать и очистить — привести в подходящий для анализа вид. Задач на этом этапе может решаться множество: от объединения большого числа таблиц в один массив до тотальной оптимизации финального датафрейма (ред.: таблицы). Для этого существует много технологий и методик, среди которых:
- Удаление повторов. Иногда данные в разных массивах (например, выгрузка частных объявлений о продаже авто с разных сайтов) могут полностью совпадать, причем значительно. Их необходимо удалять.
- Устранение противоречий. Если взять для примера аренду авто, то одни и те же машины в разных местах могут предлагаться по различной стоимости. Простое удаление всех значений не всегда является верным решением — иногда приходится оставлять один вариант либо искать алгоритм их объединения.
- Избавление от шума. От параметров и значений, которые не являются системными и значимыми.
- Исключение выбросов. Показателей, которые явно выходят за окружаемые данные и могут быть вызваны ошибкой ввода (человеческий фактор или сбой) или случайными факторами, которые не должны учитываться в анализе (резкий спрос на товар по причине 50-процентной суточной скидки).
- Заполнение пропущенных значений. Если выясняется, что есть пробелы в описании важных данных, их необходимо добавлять.
- Нормализация. Приведение параметров начальных данных к заданному диапазону.
Выполняют подобную работу специальные средства автоматизации. Хотя Data Scientist напрямую связан с программированием, но он еще и математик, и статистик, и аналитик. Он может самостоятельно создать скрипт на Python. Это поможет еще глубже разобраться в сути математических алгоритмов очистки и получить хорошую практику в создании валидного кода. А также проанализировать результаты и обобщить их.
Анализ данных. Получаем результат в удобных формах
После проведения очистки данные преобразовываются в нужный формат. Затем их системно анализирируют, делают выводы и строят прогнозные модели.
В процессе анализа, который называется Data Mining, полученные сведения проходят завершающую сортировку. Для этого используются различные показатели. Вот лишь некоторые из них:
- Стандартное отклонение. Показатель, который отражает величину колебания или дисперсии (ред.: разброса) имеющихся значений. Чем ниже этот показатель, тем ближе к усредненному набор значений.
- Медиана. Показатель, разделяющий верхнюю часть выборки от нижней. В отличие от среднего значения медиана обладает меньшей зависимостью от пиковых показателей в верхних и нижних границах, что позволяет лучше представлять центр.
- Корреляция. Взаимная статистическая связь нескольких случайных величин, при которой изменение значения показателей у одних величин вызывают изменения в других.
Для представления результатов аналитической работы важна их грамотная визуализация: графики, диаграммы, сводные таблицы, структурные схемы и пр. Такая наглядная информация способствует улучшению восприятия.
Для визуализации используется разные инструменты: бесплатные и платные, простые и не очень, многофункциональные и узкоспециализированные. Среди бесплатных можно выделить Google диаграммы. Их будет достаточно для быстрого создания диаграмм и графиков. В ценах на платные инструменты разбежки огромные — от нескольких десятков долларов (Tableau, Qlik) до нескольких сотен и даже тысяч долларов ежемесячно (Power BI, Fusion Charts). Одни инструменты требуют от специалиста по дата сайнс серьезной подготовки и определенных технических навыков. Другие, как Juicebox и Tableau, подойдут и тем, кто не обладает даже минимальным техническим опытом.
От IT до финансов. В каких сферах востребована Data Science
Сегодня про Big Data говорят буквально повсюду. И это оправданно. Поэтому Data Science находит применение в разных сферах. Приводим некоторые примеры.
- Предпринимательство. Большие данные делают традиционный бизнес-анализ и маркетинговые исследования более качественными. Они позволяют точнее прогнозировать создание популярных товаров и открытие перспективных направлений деятельности. Так, статистика по ухудшению питьевой воды привела много лет назад к созданию нового продукта — бутилированной питьевой воды. Но тогда анализ делался вручную и долго, а теперь — автоматизированно и быстро.
- Метеорологические службы. Современные прогнозы погоды базируются на обработке огромного количества многовекторной информации.
- Финансовый сектор. Специалисты по Data Science создают алгоритмы, позволяющие принять решение по выдаче кредитов.
- Здравоохранение. Все активнее внедряются технологии, позволяющие автоматически ставить диагнозы. И это результат анализа больших данных с применением технологий машинного обучения и искусственного интеллекта.
- IT-индустрия. Data Science используется для создания чат-ботов, нейросетей, алгоритмов поисковых машин и пр.
Продолжать перечислять сферы, где необходима Data Science, можно бесконечно. Здесь можно упомянуть и сельское хозяйство, где науку используют для прогнозирования урожайности. И логистику — для прогнозирования рентабельности и оптимизации маршрутов. В социальной сфере приложения для людей с ограниченным возможностями позволяют передвигаться по городу на основе подсказок виртуального помощника. А в само приложение загружаются всевозможные описания объектов, полученные как раз из Big Data. В связи с этим спрос на Data Science будет только расти.
Дата сайнс меняет нашу жизнь к лучшему
Дата сайентист — профессия, которая требует знаний программирования, конкретных технических навыков и математико-аналитических способностей. Гуманитариям придется потрудиться, чтобы вспомнить и коренным образом дополнить полученные в рамках средней школы знания. Надо уметь работать с базами данных, иметь навыки программирования на Python и SQL, уметь пользоваться такими средствами для работы с биг дата как Hadoop и Apache. Кроме того, для работы важен хороший технический английский. Это поможет получать знания из достоверных первоисточников, которые почти всегда — англоязычные.

Однако и перспектив у этой специальности немало. Важность работы с большими данными понимает сегодня даже небольшой бизнес. Data Scientist превращает хаос в порядок, преображая массивы беспорядочных данных в полезную информацию и предельно точные прогнозы. Благодаря этим специалистам компании получают более точные картины о своей целевой аудитории, создают реально нужные товары и услуги. А пользователи получают только адресную и интересную для них рекламу, принимая невидимое для них участие в создании новых продуктов. И без преувеличения, дата сайнс меняет нашу жизнь к лучшему.
А если вы хотите поближе познакомиться с профессией, то редакция Skillbox.by рекомендует изучить тематическую литературу и профессиональные сообщества.
Литература:
- Брюс Эндрю, Брюс Питер «Практическая статистика для специалистов Data Science». Книга для специалистов, имеющих опыт, технические навыки и знающих язык программирования R.
- Дж. Грас «Data Science. Наука о данных с нуля». Практическое руководство для быстрого входа в профессию без опыта и технической подготовки. В книге описываются основы составления алгоритмов на Python, матанализ и статистика.
- Кеннеди Берман «Основы Python для Data Science». Самый свежий учебник по освоению Python — языка номер один в Data Science.
Профессиональные сообщества:
- Data Science by ODS.ai — канал в Telegram, который позиционирует себя как первый и старейший подобный ресурс. Его создали участники сообщества Open Data Science. Здесь рассказывают о глубоких нейронных сетях, компьютерном зрении, обработке и понимании живой речи и естественного языка, ботах и пр.
- Data science | Machinelearning — русскоязычный ТГ-канал об искусственном интеллекте, дата сайнс и машинном обучении. Публикуются кейсы, обучающие и рекомендательные материалы, прогнозы и статистика отрасли.
- Data Science Notes — канал на русском языке, в котором можно найти не только статьи, но и целые книги по DS.
Осваивайте профессию «Data Scientist PRO» со Skillbox
Вы освоите Data Science с нуля. Попробуете силы в аналитике данных, машинном обучении и дата-инженерии. Отточите навыки на реальных проектах и станете востребованным специалистом.
Забрать доступ