Генеративные нейронные сети как помощник в поиске деструктивного контента
Генеративные нейронные сети как помощник в поиске деструктивного контента

Генеративные нейронные сети как помощник в поиске деструктивного контента

29.10.2024
Генеративные нейронные сети как помощник в поиске деструктивного контента

В АНО «ЦИСМ» (далее – Центр) ежедневно собирается и обрабатывается огромное количество текстов. Компетенции в сфере машинного обучения применяются для разработки моделей – необходимых помощников в деле поиска и классификации контента.


Квалифицированный методолог-психолог или аналитик физически неспособен отсмотреть миллион текстов на предмет наличия деструктивного контента в рамках рабочего дня. В это же время, обученная ML-модель (machine learning – модель машинного обучения) способна автоматически промаркировать миллионы единиц контента, работая в режиме 24/7.


Однако для того, чтобы модель качественно выполняла свои задачи, ей предварительно требуется обучение на большом количестве примеров. Эти примеры называются обучающей выборкой или обучающим датасетом. Пример из датасета: размеченная пара – текст и метка с пояснением, является ли текст деструктивным в определенном направлении согласно методологии Центра. На подготовку обучающего датасета тратится много времени и внимания: поэтапно проводится анализ уже известного деструктивного контента, формируется методология, подробно описывающая каждый возможный нюанс направления. Далее происходит ручная разметка текстовых данных и итеративное уточнение методологии. Лишь «обучившись» на достаточно большом и в полной мере отражающим все особенности направления датасете модель начинает работать качественно и приносит пользу в продуктах и проектах Центра.


С развитием текстовых генеративных нейронных сетей, основанных на архитектуре GPT (Generative Pretrained Transformer – Генеративный Предобученный Трансформер), которые сначала использовались для генерации правдоподобного текста, а теперь «дообучаются» для выполнения задач и следования инструкциям пользователей, данные сети начали завоевывать популярность в деле автоматизации части промышленных и бизнес-задач. Генеративные текстовые нейронные сети (или схожий термин – большие языковые модели) используются для поиска по базе знаний компании, в чатах поддержки в формате «вопрос-ответ», облегчая обработку неструктурированных данных, выполняют несложные аналитические задачи с опорой на ряд вспомогательных документов.


Одной из самых интересных особенностей современных больших языковых моделей является тот факт, что, по мере увеличения объема сети, количества и качества пропущенных через нее данных, модели учатся лучше «понимать» текст. Например, у моделей с десятками миллиардов обучающихся параметров появляется возможность обнаруживать сарказм в тексте, определять описанные эмоции, понимать юмор, что является важным для оценки текста.


В АНО «ЦИСМ» были внедрены локальные текстовые генеративные модели для ускорения и упрощения ряда операций и задач. Одной из таких задач является разметка текстовых данных. Так как большие языковые модели работают медленно и потребляют большое количество вычислительных ресурсов, они не могут быть использованы напрямую для оценки всего потока поступающих текстовых данных. Целесообразнее использовать их для автоматической разметки данных с последующим обучением небольших узкоспециализированных ML-моделей, способных работать, потребляя гораздо меньшие ресурсы.


Для того, чтобы организовать полуавтоматическую разметку, специалисты Центра предварительно подготавливают методологию, используют техники prompt-engineering (иначе говоря, подбирают нужные запросы для генеративной нейронной сети), тестируют качество работы сети и запускают разметку. Впоследствии данная разметка дополнительно проверяется вручную. На полученных данных обучается модель поменьше, после чего качество ее работы также проверяется на независимой выборке.


Таким образом, одним из полезных и уже внедренных в работу Центра сценариев использования генеративных текстовых сетей для поиска деструктивного контента является полуавтоматическая разметка с дальнейшим обучением небольших ML-моделей. Внедренный метод позволяет автоматизировать часть рутинной работы и выделить больше времени на более сложные методологические и аналитические задачи. В Центре продолжаются прикладные исследования по применению генеративных текстовых моделей для обеспечения уставной деятельности и дальнейшего повышения её эффективности.



Вернуться к списку