Прикладной анализ Big Data: как изучают и защищают молодое поколение?
Развитие информационных технологий дало возможность получать в режиме реального времени огромное количество разнообразных данных об окружающей нас среде. Сегодня Big Data – незаменимый источник полезной информации, используемый во всех значимых сферах жизни. Они позволяют глубже понять потребности и ценности общества, отражают влияние IT-технологий на социум. Директор Центра анализа больших данных НИ ТГУ Вячеслав Гойко рассказал сотрудникам АНО «ЦИСМ» о том, как Big Data помогают исследовать молодое поколение и какие проекты по безопасности в цифровой среде реализуют российские учёные.
– Какие данные используются для исследования молодёжи? Какая информация наиболее ценна?
– В рамках собственных исследовательских проектов учёные Томского государственного университета анализируют цифровые следы молодёжи, то есть любую активность человека в онлайн-пространстве или на цифровых платформах. В практических проектах для задач вузов и сторонних заказчиков анализируется информация из социальных сетей и систем электронного обучения, особенно ценна привязка к этим данным результатов анкетирования или разнообразных тестирований. Таким образом, с одной стороны, мы можем увидеть поведение человека в онлайне, с другой – его личностные характеристики, и в дальнейшем определить связь между ними.
– Насколько большие данные удобны для анализа аудитории? Какие существуют сложности?
– Когда мы работаем с большими данными, у нас возникают технические сложности: информацию нужно собирать, хранить, а для её обработки и построения алгоритмов требуются значительные вычислительные ресурсы. Помимо этого, возникают вопросы валидности представленных данных и их репрезентативности, то есть насколько полученные нами результаты объективно отображают реальность. И самый главный блок – проблемы этического характера. Ведь при работе с большими данными необходимо всегда находиться в рамках норм морали и исследовательской этики. Например, у нас есть алгоритмы прогнозирования образовательной успешности студентов по их оценкам в первый год обучения. Они позволяют выявить тех, кто с высокой вероятностью бросит учёбу.
– Как анализ данных влияет на развитие системы образования?
– Одним из ключевых трендов в образовании на сегодняшний день является индивидуализация. Процесс обучения можно подстроить под особенности и пожелания человека, что в теории повысит образовательный результат и сделает обучение более увлекательным. В центре такого подхода лежат данные об учащемся и информация о его взаимодействии с образовательным контентом: с какой скоростью он проходит курс, на каких задачах ошибается, какой формат уроков ему подходит и так далее. Сейчас появились адаптивные платформы обучения программированию, языкам и точным наукам. Алгоритмы тьюторства помогают подстраивать курс под индивидуальные способности и начальный уровень знаний.
– Можно ли с помощью больших данных управлять интересами молодого поколения?
– Это уже происходит. Например, поисковая выдача информации в браузере или подборка видео на YouTube. Платформа запоминает поведение пользователя и адаптируется под его предпочтения. Спектр контента сужается, и человек оказывается в своём собственном информационном пузыре, в который крайне тяжело попасть альтернативной точке зрения или контенту из других источников. Имея такие возможности, владельцы платформ могут управлять мнениями пользователей с помощью алгоритмов рекомендательных систем или иных инструментов. Поэтому так важно воспитывать критическое мышление у молодёжи, чтобы у каждого в голове был свой алгоритм проверки потока информации.
– Какие проекты в сфере Big Data реализуют учёные для обеспечения безопасности юных интернет-пользователей?
– Интернет, в частности социальные сети, можно сравнить с открытым краном с грязной водой. На пользователей выливается поток различной информации, в том числе несущей опасность для психологического благополучия детей и подростков. В ответ на современные вызовы психологи, социологи и программисты Томского государственного университета реализуют проект по идентификации небезопасного контента в социальных сетях. При поддержке Российского научного фонда разработан алгоритм для выявления онлайн-сообществ с потенциально опасным содержанием: ненависть, насилие, экстремизм, самоповреждающее поведение и другим. В рамках этого проекта проходит тестирование сервиса «Детектор опасного контента», также коллеги организовали семинары по цифровой безопасности.
– Для эффективного решения социально значимых задач с помощью данных и обмена опытом был создан Университетский консорциум исследователей больших данных. 19-20 мая состоится Международный конгресс этого объединения. Какие вопросы будут в центре внимания?
– На площадке Конгресса сообщество исследователей из ведущих вузов России и эксперты из технологических компаний обсудят вопросы импортозамещения и обеспечения комплексной безопасности, сообща будут искать ответы на технологические вызовы. Отечественные организации презентуют программные решения для сферы высшего образования, продукт для организации гибридного обучения. Также исследовательские команды университетов-участников Консорциума представят результаты проектов по удержанию талантов в регионе, мониторингу рынка труда и анализу культурного кода россиян.
Дополнительные материалы: