Data аналитик и Data scientist: есть ли разница?
В сфере IT технологий особо выделяется такая отрасль, как Data Science[1]. В области работы с данными популярны такие профессии, как data инженер, data scientist (data саентист – ред.) и data аналитик (аналитик данных – ред.). В последних двух понятиях легко запутаться неспециалисту. Может показаться, что профессии data аналитика и data саентиста похожи, да и во многих компаниях обязанности этих двух специалистов часто пересекаются. За разъяснениями, что общего и какие отличия в этих профессиях, сотрудники ЦИСМ обратились к Юлии Мундриевской, генеральному директору Академии «Дата-Дайвинг» при Томском государственном университете:
— Говоря о работе с данными, можно выделить несколько этапов: сбор данных, чистка и обработка данных, непосредственно анализ данных и модулирование.
Data аналитик – это специалист, который собирает и анализирует данные, чтобы ответить на главные вопросы: «что происходит и почему?». Он проводит анализ трендов, смотрит за тем, как меняется ситуация, и все это, в первую очередь для того, чтобы бизнес получал свою прибыль и развивался. Аналитик данных – это тот человек, который тестирует различные гипотезы, чтобы понять, что происходит внутри и вокруг бизнеса. Те решения, которые предлагает аналитик данных, ту описательную картинку, которую он представляет, бизнес потом использует, чтобы принять управленческие решения. После внедрения аналитик оценивает эффективность данных решений и строит дальнейшие прогнозы.
Data scientist – это ученый, исследователь. Он сосредоточен не на анализе настоящего, это не него фокус. Его деятельность строится вокруг ответа на вопрос: «что будет дальше и как к этому прийти?». Он анализирует данные, строит прогностические математические модели, с помощью которых он ищет зависимости в данных и делает прогнозы или создает новые продукты. Data scientist больше интересуется тем, что происходит внутри модели, как работают алгоритмы и какие есть взаимосвязи в данных. Это все происходит на основе глубокого понимания математики и статистики, которые лежат в основе всех закономерностей.
Если мы говорим о рынке труда, то сейчас спрос на data саентистов ниже, чем на data аналитиков. Это связано с тем, данных очень много, и бизнес хочет сначала разобраться в них, а потом уже их исследовать и строить модели. Далеко не в каждой компании нужны сложные модели машинного обучения, глубокого обучения и им подобные. Как правило, они необходимы в крупных компаниях, которые работают с большим объемом аналитических данных для создания продуктов на основе передовых технологий типа распознавания речи, изображений, искусственного интеллекта и т.д. Сейчас идет трансформация data science в более отраслевую историю. Если ранее специалисты этого профиля были универсальны, сейчас Data саентисты – это люди, которые имеют определенный профиль, определенную заточенность под отрасль и под конкретную технологию. Это может быть распознавание текста, речи, машинное зрение, особо актуальна сейчас обработка естественного языка.
[1] Data Science (наука о данных, даталогия) – это набор дисциплин, технологий и методик для анализа огромного объема информации, генерируемой бизнесом и некоммерческими организациями.