Разметчик данных: как стать специалистом в растущей области информационных технологий
Разметчик данных: как стать специалистом в растущей области информационных технологий

Разметчик данных: как стать специалистом в растущей области информационных технологий

27.04.2023
Разметчик данных: как стать специалистом в растущей области информационных технологий

Современные тенденции развития сферы информационных технологий требуют все большего количества данных для анализа и обработки. В связи с этим появляются новые профессии, в их числе и разметчик данных. Это специалист, который занимается разметкой информации для разработки алгоритмов машинного обучения и искусственного интеллекта. Сегодня этот вид деятельности пользуется большим спросом в разных секторах экономики, среди которых медицина, финансы, а также IT-отрасль. Об основных аспектах профессии разметчика данных нам рассказал ведущий разработчик отдела машинного обучения АНО «ЦИСМ» Никита Морошкин.


— Почему возникает потребность в разметке данных?


— Качество данных для обучения или тестирования напрямую влияет на качество самой технологии искусственного интеллекта и зависит от качественной разметки. В среднем разработчик технологий искусственного интеллекта тратит около 60% своего рабочего времени на подготовку и разметку данных.


Разметка – это процесс выявления объектов в сырых данных с добавлением меток, которые в последующем позволяют моделям машинного обучения делать точные прогнозы и оценки.


Данные – это «топливо» для любой модели машинного обучения. А для хороших данных нужна хорошая разметка.


Разметка может использоваться как для получения данных для обучения, так и для оценки качества работы того или иного алгоритма анализа данных, в таком случае процесс разметки принято называть тестированием.


— Чем непосредственно занимается разметчик данных?


— Разметчик данных осуществляет свою деятельность вручную или с помощью специализированного сервиса. Существует огромное количество задач: разметка изображений и поиск на них объектов; разметка видеоряда и выделение областей, где есть искомые объекты; перевод предложения с одного языка на другой; распознавание текста в аудиофайлах и многое другое.


— Что входит в обязанности разметчика?


— Все очень сильно зависит от цели разметки. Допустим, разметчику нужно разметить изображения – есть ли на них кот или кошка. Для этого ему придется просмотреть каждое изображение в отдельности, определить есть ли искомый объект на этом изображении, отметить это в системе или в отдельном файле, и перейти к следующему изображению.


Но чтобы сделать это, разметчику необходимо понимать, что такое «кот» и «кошка». Конечно, в нашем абстрактном примере это и так понятно. Но в реальности возникают задачи намного сложнее, где не все так однозначно.


Например, разметчику необходимо определить, является ли текст депрессивным. Сама постановка задачи очень размытая. Для решения этой задачи у всех разметчиков должен быть регламент/справка/понятийный аппарат, чтобы понять, какой именно текст можно считать депрессивным. Разметчик должен в совершенстве владеть этой информацией, иначе ничего не получится.


— Какие могут возникнуть сложности?


— На самом деле, сложностей в разметке очень много. Если не касаться технического обеспечения процесса разметки, то в основном сложности возникают с пониманием задач. Чаще всего возникает спорная ситуация в определении класса отдельного объекта данных. Все мы люди, и субъективность убрать невозможно.


Следующая проблема – устаревание понятийного аппарата разметки. Данных с каждым днем становится все больше и больше. Тренды сменяют друг друга, наш язык видоизменяется. Понятийный аппарат – это та исходная точка разметки, от которой зависит все ее качество. И здесь важно, чтобы каждый разметчик был, что называется, «на одной волне» с тем контентом, который он размечает, и вносил правки, предложения и уточнения в понятийный аппарат.


И, наверное, самая главная проблема всего процесса – усталость и «замыливание» глаз. Работа разметчика состоит из рутины, это правда. Человек не должен терять бдительность в рассматриваемых данных, ни один объект не должен выпасть из его поля зрения. Поэтому всегда нужно давать отдых глаза (или ушам, если требуется слушать аудиоконтент).


— Какими навыкам и качествами должен обладать разметчик данных?


— Я бы выделил такие качества, как:


  1. Терпение. Без него стать хорошим разметчиком, увы, не получится.

  2. Повышенное внимание. Порой «кот» или «кошка» могут находиться в самых неожиданных местах на фотографии.

  3. Самокритика. Разметчик должен постоянно сомневаться в своих ответах.

  4. Ну и, конечно же, экспертные знания в той области, к которой принадлежат размечаемые данные.



Вернуться к списку