Выпускник «Гнесинки» и ТГУ научил ИИ выбирать музыку на вкус слушателя

С развитием потоковых сервисов для прослушивания музыки встал вопрос создания способов для удержания пользователей. В число наиболее эффективных инструментов входят рекомендательные системы, однако далеко не всегда им удается угадать запросы слушателя. Выпускник Российской музыкальной академии им. Гнесиных и Томского государственного университета Константин Березовский разработал рекомендательную систему, которая за счет анализа больших данных и машинного обучения не только лучше «понимает» слушателя, но в перспективе сможет писать музыку, исходя из его предпочтений. Эта новая система стала выпускной работой магистра Института прикладной математики и компьютерных наук ТГУ. 

photo_2023-08-23_березовский.jpg– Для создания рекомендательных систем используются две основные модели: коллаборативная фильтрация и модель на основе контента, – объясняет магистр ИПМКН ТГУ Константин Березовский. – В первом случае рекомендации основаны на вычислении сходства между пользователями и их музыкальными предпочтениями. Основная проблема этого метода называется «холодный старт» и означает, что система не будет хорошо работать с новыми элементами, будь то музыка или пользователи. Во втором случае рекомендации основаны на анализе самих музыкальных данных для рекомендации похожих треков. В своей разработке я использовал второй метод. 

Целью проведенных исследований являлось создание функциональной и эффективной системы музыкальных рекомендаций. В долгосрочной перспективе решаемая задача – это не только рекомендация существующих песен, но также создание композиций, адаптированных к музыкальным предпочтениям пользователя.

– Существует множество признаков, которые могут быть извлечены для определения предпочтений слушателя, – говорит Константин Березовский. – Это и низкоуровневые признаки: временные (частота пересечения нуля), спектральные (спектральное убывание) или восприятие (громкость), требующие знаний физики и обработки сигналов. Существуют также среднеуровневые признаки, понятные музыкальным экспертам – ритм, высота звука и прочее. Наконец, есть высокоуровневые признаки, понятные всем – настроение, танцевальность.

В работе с использованием двух наборов музыкальных данных – GTZAN и FMA – был определён оптимальный набор признаков для характеристики музыки, позволяющий избегать избыточной и навязчивой информации. Наряду с этим в ходе создания новой системы была найдена лучшая обучаемая модель, способная распознавать жанры и давать рекомендации, соблюдая при этом баланс между новыми и уже знакомыми композициями. 

– Создание рекомендательных систем с помощью нейросетевых технологий вещь не новая, но «изюминкой» этого продукта является то, что у ее создателя базовое музыкальное образование – музыкально-инструментальное искусство (гитара), – отмечает научный руководитель Константина Березовского, директор ИПМКН ТГУ Александр Замятин. – Благодаря этому, Константин лучше понимает, что такое структура музыки, особенности ее восприятия людьми, параметры, которые можно использовать при анализе больших данных, чтобы извлечь максимум полезной информации. Это стало преимуществом по сравнению с другими разработчиками и позволило создать качественный продукт, перспективный для внедрения.

Фото из архива Константина Березовского