Top.Mail.Ru

Выпускница ТГУ разработала для «Эксмо» модель отбора успешных текстов

Выпускница сетевой магистратуры Томского государственного университета и Skillfactory «Анализ естественного языка (NLP) в лингвистике и IT» Мария Кутейникова в своей магистерской диссертации исследовала возможности автоматизированного анализа «эмоциональной кривой» художественного текста. В результате с помощью технологий автоматической обработки естественного языка (NLP) и методов машинного обучения создана модель, позволяющая оценивать потенциальную успешность рукописи еще до публикации. Разработка выполнена в сотрудничестве с издательством «Эксмо» и уже интегрируется во внутреннюю систему компании для оптимизации редакторской работы.

В 2025 году состоялся первый выпуск магистратуры Института дистанционного образования ТГУ и Skillfactory «Обработка естественного языка (NLP) в лингвистике и IT». На защите студенты представили три проекта, выполненные на базе «Эксмо». Один из них — магистерская диссертация Марии Кутейниковой — первый пример реализации подобной аналитической модели в России. Научным руководителем этой работы выступила руководитель программы, профессор кафедры общей, компьютерной и когнитивной лингвистики филологического факультета ТГУ Зоя Резанова

Мария Кутейникова, автор проекта

Идея, которая легла в основу проекта, заключается в том, что художественный текст можно рассматривать не только как последовательную связь событий во времени, но и как непрерывную последовательность эмоций, которая ведет читателя от экспозиции к кульминации и развязке. Инструмент, способный автоматически строить «эмоциональную кривую» рукописи, позволит издательствам еще до прочтения определять, просматривается ли в ней ритм, свойственный успешным книгам, а автору — увидеть на графике, где повествование теряет напряжение или перегружено «пиками», чтобы скорректировать композицию. 

С помощью технологий NLP и методов машинного обучения Мария Кутейникова создала такой инструмент. Она адаптировала зарубежные подходы под русскоязычный материал, используя язык программирования Python, библиотеки для обработки текста и машинного обучения, а также модель для анализа эмоций на русском языке. 

— Я начала с изучения исходных данных издательства (набора рукописей) и понимания задачи: какой продукт хочет получить издательство. Исследовала разные подходы, которые применяются в мировой практике, — рассказывает Мария. — Мне понравился подход syuzhet, который используют в англоязычных коммерческих сервисах. Я разобралась, как он выстраивается, и реализовала его для русского языка, после чего провела тест. Я взяла одну книгу, построила «эмоциональную кривую» с помощью платного сервиса, в котором реализован syuzhet, а потом посмотрела, получается ли у меня похожее с помощью моего кода. Все получилось. 

Затем по этому методу были построены «эмоциональные кривые» для большого размеченного на успех датасета из более 4000 книг, предоставленных издательством «Эксмо». В подборку вошли тексты с устойчивым коммерческим успехом, книги со средними продажами, а также произведения, которым редакционный совет отказал в публикации. Результаты показали, что эмоциональная кривая действительно коррелирует с успешностью текста. Автоматизированный подход способен выявлять перспективные рукописи с высокой точностью, сопоставим с ручным рецензированием — но работает быстрее и с меньшими затратами. 

В итоге был создан локально работающий Python-скрипт с набором модулей для обработки и анализа текста. По словам Марии, проект — первый пример реализации подобной модели в России. В мире существуют исследования по анализу нарратива и предсказанию коммерческого успеха текста, но готовых работающих решений для издательского процесса русскоязычной литературы практически нет.

— Наша программа получает на вход полный текст книги, делит его на предложения, определяет эмоциональный тон каждого из них с помощью большой языковой модели, «заточенной» на анализ эмоций, — объясняет Мария. — Затем убирается шум и строится «эмоциональная кривая» произведения. В дополнение извлекаются статистические признаки, исходя из формы кривой. Эти признаки и саму кривую обученная модель использует для классификации книги как потенциально успешной или нет. 

Сейчас Мария Кутейникова занимается совершенствованием предсказательной модели в рамках стажировки в издательстве «Эксмо». Компания уже ведет работу по интеграции Python-скрипта с набором модулей для обработки и анализа текста в свою систему.

— Обучение в онлайн-магистратуре дало мне базу, без которой реализация такой задачи была бы невозможна, — добавляет Мария. — Особенно полезными были навыки работы с NLP, машинным обучением, анализом данных и построением пайплайнов обработки текста. Кроме того, проектная работа на курсе помогла отработать умение структурировать процесс и доводить решение до рабочего состояния.

Ознакомиться с полным текстом магистерской диссертации Марии Кутейниковой можно на сайте Научной библиотеки ТГУ

Узнать больше об онлайн-магистратуре «Обработка естественного языка (NLP) в лингвистике и IT» — по ссылке: https://online.ido.tsu.ru/mag/nlp