Top.Mail.Ru

В ТГУ создают чат-бот для генерации алтайских мифов и легенд

9 августа отмечается Международный день коренных народов мира — праздник, посвященный сохранению культуры и языка коренных этнических общностей, а также привлечению внимания к их проблемам и потребностям. В Томском государственном университете изучением различных аспектов жизни коренных народов Сибири занимается несколько научных групп, в том числе команда лаборатории лингвистической антропологии филологического факультета. В рамках нового проекта ученые разрабатывают чат-бот для генерации мифов и легенд народов Горного Алтая. Работа ведется с участием Сибирского центра изучения искусственного интеллекта ТГУ при поддержке федеральной программы «Приоритет 2030».

Чат-бот создается с применением технологий обработки естественного языка NLP (Natural Language Processing). С его помощью пользователи смогут выбирать различные параметры — главного героя, место действия, концовку и другие — и создавать собственные истории на основе мифологических текстов Горного Алтая. Проект направлен на сохранение и популяризация алтайской культуры — в первую очередь, среди самих алтайцев. 

— С одной стороны, мы рассматриваем нашу модель как современный способ понимания мифологии и осмысления мифологического наследия, а с другой — как продукт, адресованный широкому потребителю, — говорит профессор кафедры общей, компьютерной и когнитивной лингвистики ФилФ ТГУ, руководитель проекта Зоя Резанова. — Мы решили сделать такой синтезатор сказок, чтобы предоставить людям, носителям, игровой способ включиться в собственную культуру, приблизиться к собственным основам.

Профессор ФилФ ТГУ, руководитель проекта Зоя Резанова

Сейчас команда проекта занимается изучением оригинальных текстов мифов, легенд и сказок и проводит их «разметку» по схеме советского филолога Владимира Проппа, который выявил единство глубинных структур всех сказочных сюжетов в работе 1928 года «Морфология волшебной сказки». 

Как отмечает Зоя Ивановна, хотя схема Проппа и является практически универсальной, в приложении к конкретным этническим вариантам она требует модификации. Так, для алтайских мифологических текстов исследователи выявляют особые сюжетные смыслы, героев, соотношения, синтаксис и устойчивые образы, чтобы затем сформулировать специализированные промпты для нейросети. С помощью этих промптов чат-бот будет синтезировать новые сказки с новыми типами реализации сюжетов.

У команды проекта уже есть опыт подобных разработок. Основные исполнители — студенты и выпускники сетевой магистерской программы ТГУ и томской компании IPST (ООО «Интеллиджент Профит Солюшнс Томск») «Компьютерная и когнитивная лингвистика». Во время прохождения учебной практики они приняли участие в разработке чат-бота для генерации детских сказок. Проект разрабатывается компанией IPST, специализирующейся на создании современных IT-продуктов.

Первую версию чат-бота для генерации алтайских мифов и легенд планируют выпустить осенью этого года. Также в рамках проекта будет написано две научные статьи по результатам анализа этнологических текстов и изучения мировых решений проблемы создания художественно подобных текстов с помощью NLP.

Продукт будет реализован на русском языке, поскольку размеченных электронных корпусов алтайского языка, с помощью которых можно провести обучение модели, пока не существует в достаточном объеме. Тем не менее, команда проекта уверена, что популяризация мифологии коренных народов России на русском языке — это действенный способ сохранения основ культуры для представителей коренных народов, поскольку большинство из них — билингвы, владеющие как материнским, так и русским языком.

После разработки чат-бота команда намерена продолжить развивать проект и дообучать модель на основе экспертных отзывов и данных специальных метрик по оценке качества автоматического художественного текста. Кроме того, ученые планируют адаптировать проект для алтайского языка. С этой целью под руководством заведующей лабораторией лингвистической антропологии ФилФ ТГУ Анны Дыбо размечается корпус текстов сказок на алтайском языке, который послужит основой для обучения моделей машинного перевода с русского на алтайский.