Разметчик данных: как стать специалистом в растущей области информационных технологий
Современные тенденции развития сферы информационных технологий требуют все большего количества данных для анализа и обработки. В связи с этим появляются новые профессии, в их числе и разметчик данных. Это специалист, который занимается разметкой информации для разработки алгоритмов машинного обучения и искусственного интеллекта. Сегодня этот вид деятельности пользуется большим спросом в разных секторах экономики, среди которых медицина, финансы, а также IT-отрасль. Об основных аспектах профессии разметчика данных нам рассказал ведущий разработчик отдела машинного обучения АНО «ЦИСМ» Никита Морошкин.
— Почему возникает потребность в разметке данных?
— Качество данных для обучения или тестирования напрямую влияет на качество самой технологии искусственного интеллекта и зависит от качественной разметки. В среднем разработчик технологий искусственного интеллекта тратит около 60% своего рабочего времени на подготовку и разметку данных.
Разметка – это процесс выявления объектов в сырых данных с добавлением меток, которые в последующем позволяют моделям машинного обучения делать точные прогнозы и оценки.
Данные – это «топливо» для любой модели машинного обучения. А для хороших данных нужна хорошая разметка.
Разметка может использоваться как для получения данных для обучения, так и для оценки качества работы того или иного алгоритма анализа данных, в таком случае процесс разметки принято называть тестированием.
— Чем непосредственно занимается разметчик данных?
— Разметчик данных осуществляет свою деятельность вручную или с помощью специализированного сервиса. Существует огромное количество задач: разметка изображений и поиск на них объектов; разметка видеоряда и выделение областей, где есть искомые объекты; перевод предложения с одного языка на другой; распознавание текста в аудиофайлах и многое другое.
— Что входит в обязанности разметчика?
— Все очень сильно зависит от цели разметки. Допустим, разметчику нужно разметить изображения – есть ли на них кот или кошка. Для этого ему придется просмотреть каждое изображение в отдельности, определить есть ли искомый объект на этом изображении, отметить это в системе или в отдельном файле, и перейти к следующему изображению.
Но чтобы сделать это, разметчику необходимо понимать, что такое «кот» и «кошка». Конечно, в нашем абстрактном примере это и так понятно. Но в реальности возникают задачи намного сложнее, где не все так однозначно.
Например, разметчику необходимо определить, является ли текст депрессивным. Сама постановка задачи очень размытая. Для решения этой задачи у всех разметчиков должен быть регламент/справка/понятийный аппарат, чтобы понять, какой именно текст можно считать депрессивным. Разметчик должен в совершенстве владеть этой информацией, иначе ничего не получится.
— Какие могут возникнуть сложности?
— На самом деле, сложностей в разметке очень много. Если не касаться технического обеспечения процесса разметки, то в основном сложности возникают с пониманием задач. Чаще всего возникает спорная ситуация в определении класса отдельного объекта данных. Все мы люди, и субъективность убрать невозможно.
Следующая проблема – устаревание понятийного аппарата разметки. Данных с каждым днем становится все больше и больше. Тренды сменяют друг друга, наш язык видоизменяется. Понятийный аппарат – это та исходная точка разметки, от которой зависит все ее качество. И здесь важно, чтобы каждый разметчик был, что называется, «на одной волне» с тем контентом, который он размечает, и вносил правки, предложения и уточнения в понятийный аппарат.
И, наверное, самая главная проблема всего процесса – усталость и «замыливание» глаз. Работа разметчика состоит из рутины, это правда. Человек не должен терять бдительность в рассматриваемых данных, ни один объект не должен выпасть из его поля зрения. Поэтому всегда нужно давать отдых глаза (или ушам, если требуется слушать аудиоконтент).
— Какими навыкам и качествами должен обладать разметчик данных?
— Я бы выделил такие качества, как:
-
Терпение. Без него стать хорошим разметчиком, увы, не получится.
-
Повышенное внимание. Порой «кот» или «кошка» могут находиться в самых неожиданных местах на фотографии.
-
Самокритика. Разметчик должен постоянно сомневаться в своих ответах.
-
Ну и, конечно же, экспертные знания в той области, к которой принадлежат размечаемые данные.