Команда лаборатории прикладного анализа больших данных ТГУ по запросу Аналитического центра при Правительстве Российской Федерации разработала алгоритм, который на основе технологий искусственного интеллекта классифицирует сообщения и комментарии от интернет-пользователей. Разработка Томского государственного университета помогает анализировать обратную связь от граждан по тематике здравоохранения, систематизируя мнения и отзывы жителей десяти регионов страны. Точность обработки достигает 80%.
Алгоритм тематической классификации сообщений и комментариев в социальных медиа разработан в ТГУ рамках проекта «Обратная связь от гражданина» при поддержке компании «Мегапьютер Интеллидженс». Сбор данных обратной связи и комплексный анализ общественного мнения являются важными задачами Аналитического и Координационного центров при Правительстве Российской Федерации. Так, ведется мониторинг социальных настроений, ожиданий, запросов и обращений граждан, оцениваются риски, выявляются тенденции, предсказываются точки социальной напряженности и прочее. В конечном счете, обратная связь учитывается при стратегическом прогнозировании и перспективном планировании важных государственных проектов.
О том, как собирается и анализируется обратная связь для поддержки принятия решений, какие инструменты для этого используются и каковы эффекты такой работы, 3 апреля в Москве на площадке Координационного центра при Правительстве Российской Федерации говорили участники конференции «Обратная связь от граждан: современные методы и сервисы анализа данных». В число спикеров вошли заведующий научно-исследовательской лабораторией прикладного анализа больших данных ТГУ Вячеслав Гойко и младший научный сотрудник лаборатории Юлия Александрова.
– Первую попытку решения задачи анализа обратной связи мы предприняли в 2018 году, когда предложили авторскую методику оценки субъективного качества жизни населения регионов страны на основе анализа свыше 10 млн постов и комментариев в социальных сетях. Результаты совместного с Аналитическим центром при Правительстве Российской Федерации «пилота» автоматической классификации отзывов граждан по отрасли здравоохранения подтверждают зрелость подхода. Расширение метода, основанного на технологиях ИИ, на другие отрасли мы считаем приоритетным для нашей лаборатории, – отметил Вячеслав Гойко.
Пилотное изучение сообщений, касающихся здравоохранения, в ВК и Тelegram велось в минувшем, 2023 году в регионах из разных федеральных округов, чтобы они имели разные социально-экономические особенности. В их число вошли Томская, Псковская, Вологодская, Свердловская, Курганская, Омская области, Краснодарский и Ставропольский края, Республики Башкортостан и Бурятия.
Отдельно для оценки обратной связи от граждан автоматически, без ручного труда, классифицировались сообщения не только по тональности – с негативной и позитивной оценкой, но и по категориям. Среди таких категорий – обслуживание, качество предоставляемых услуг, медицинское оснащение учреждений, меры поддержки, обеспечение лекарственными препаратами, нехватка медперсонала, вакцинация, проблемы людей с инвалидностью.
– При работе над проектом были разработаны алгоритмы обработки данных на естественном языке с использованием современных и зарекомендовавших себя подходов. Это позволило автоматизировать очистку тестовых 15 тысяч постов и комментариев от нерелевантного контента, а также выделить необходимые тематические кластеры. Основная сложность классификации текстов заключалась в стиле разговорной речи: к примеру, сокращение фраз и сарказм усложняют автоматизацию, – рассказала Юлия Александрова.
На данный момент алгоритм, созданный в ТГУ, позволяет обрабатывать массив данных в соответствии с темой «Здравоохранение» классификатора обратной связи на площадке Координационного центра при Правительстве Российской Федерации. Точность обработки достигает 80%.
Для справки: Конференция «Обратная связь от граждан: современные методы и сервисы анализа данных» была организована Аналитическим центром при Правительстве Российской Федерации при поддержке компании Brand Analytics. Спикерами стали представители центра, министерства цифрового развития, связи и массовых коммуникаций, АНО «Национальные приоритеты», АНО «Диалог», Ситуационного центра губернатора Тульской области, ВЦИОМ, Фонда «Общественное мнение», НИИ организации здравоохранения и медицинского менеджмента и исследовательского холдинга «Ромир», Brand Analytics, Яндекс. Взгляд, «Мегапьютер Интеллидженс», 3iTech, МГУ им. М.В. Ломоносова, НИУ ВШЭ, РАНХиГС, МГТУ им. Н.Э. Баумана, НИ ТГУ и других организаций.