Музыкальный код: Новый датасет для обучения искусственного интеллекта

Автор: Денис Аветисян

Представлен BMdataset — тщательно отобранный набор данных в формате LilyPond, позволяющий создавать более точные модели для анализа и генерации музыки.

Набор данных BMdataset характеризуется преобладанием композиций позднего барокко, преимущественно струнных инструментов и жанра концерта, при этом произведения Вивальди составляют 30,5% от общего объема, а остальные 70 композиторов представлены от одного до восемнадцати произведений каждый.

Исследование демонстрирует, что экспертно подобранные данные превосходят по качеству большие, автоматически конвертированные наборы для обучения моделей представления символической музыки.

Несмотря на значительный прогресс в области анализа музыкальных данных, символические представления, отличные от MIDI, остаются недостаточно изученными. В настоящей работе представлена коллекция $BMdataset$ — тщательно выверенная, аннотированная база данных из 393 музыкальных произведений в формате LilyPond, полученных непосредственно из оригинальных барочных манускриптов. Показано, что модель $LilyBERT$ , обученная на этом небольшом, но экспертно подготовленном наборе данных, превосходит модели, обученные на гораздо больших корпусах автоматически преобразованных данных, в задачах классификации композитора и стиля. Может ли более качественная, хотя и компактная, разметка данных стать ключом к созданию более эффективных моделей для понимания и анализа символической музыки?

Постижение Музыкальной Структуры: За пределами Традиционных Представлений

Существующие форматы представления музыкальной информации, такие как MIDI и MusicXML, зачастую оказываются недостаточно точными для полноценного анализа композиторского замысла. Эти системы, ориентированные преимущественно на воспроизведение звука, не всегда отражают тонкости музыкальной структуры и нюансы, заложенные автором. В результате, возможности автоматизированного анализа, будь то выявление паттернов, гармонических особенностей или стилистических приемов, существенно ограничиваются. Недостаток детальной информации о музыкальной структуре препятствует глубокому пониманию композиции и затрудняет проведение сложных музыковедческих исследований, требующих точного и всестороннего представления музыкального материала.

Существующие форматы музыкальной нотации, такие как MIDI и MusicXML, зачастую ориентированы прежде всего на воспроизведение звука, а не на точное отражение структурной организации композиции. Это создает значительные трудности для продвинутых музыковедческих исследований, поскольку ключевая информация о музыкальной форме, гармонической логике и тематическом развитии оказывается либо упрощена, либо вовсе отсутствует. В результате, автоматизированный анализ музыкального произведения, направленный на выявление закономерностей и внутренних связей, становится затруднительным и требует значительных усилий по восстановлению недостающих данных. Подобное смещение акцента от структурной информации к звуковому сигналу ограничивает возможности применения современных вычислительных методов для глубокого анализа и понимания музыкального произведения как сложной системы.

Система LilyPond, представляющая собой текстовую систему музыкальной гравировки, открывает уникальные возможности для представления музыки в виде структурированных данных. В отличие от бинарных форматов, LilyPond оперирует текстовыми файлами, содержащими не только ноты, но и информацию о музыкальной структуре, артикуляции и других параметрах. Однако, для извлечения и анализа этих данных требуется специализированная обработка — разработка парсеров и алгоритмов, способных интерпретировать текстовый код и преобразовать его в формат, пригодный для вычислительного анализа. Несмотря на эту сложность, гибкость и детализация представления в LilyPond делают его перспективным инструментом для продвинутых музыковедческих исследований и разработки интеллектуальных музыкальных систем.

Проекция t-SNE слоев эмбеддингов (CB + PDMX→BM) на наборе Mutopia показывает четкое разделение по стилям (барокко, классицизм, романтизм) и композиторам, что свидетельствует о способности модели различать как общие периоды, так и индивидуальные особенности композиторского стиля.

Адаптация Языковых Моделей для Символической Музыки

Предварительное обучение больших языковых моделей на обширных текстовых корпусах является ключевым для усвоения лингвистических закономерностей, однако прямое применение этих моделей к данным символической музыки неэффективно из-за различий в структуре и семантике. Текстовые данные характеризуются естественной, часто нестрогой грамматикой, в то время как символическая музыка, представленная в форматах вроде LilyPond, обладает чётко определённым синтаксисом и логикой, требующей специализированной адаптации модели. Необходима модификация архитектуры и стратегий обучения для эффективной обработки и генерации музыкальных данных, учитывающих специфику музыкального языка и нотации.

Архитектура CodeBERT, основанная на RoBERTa, представляет собой надежную базу для обработки как кода, так и естественного языка. Данная модель использует подход трансформера, что позволяет эффективно анализировать последовательности токенов, характерные для программных языков и текста. В контексте символической музыки, CodeBERT хорошо подходит для обработки LilyPond, поскольку этот язык имеет строго определенный синтаксис и структуру, что делает его похожим на программный код. Использование предварительно обученной модели CodeBERT позволяет избежать необходимости обучения с нуля, значительно сокращая время и вычислительные ресурсы, необходимые для создания модели, способной понимать и генерировать музыкальные произведения в формате LilyPond.

Маскированное языковое моделирование (MLM) позволяет модели изучать контекстные представления, предсказывая замаскированные токены в коде LilyPond. В процессе обучения случайные токены в последовательности кода заменяются специальным токеном «[MASK]», и модель обучается восстанавливать исходные токены, основываясь на окружающем контексте. Этот подход вынуждает модель понимать синтаксис и семантику языка LilyPond, а также взаимосвязи между различными элементами музыкальной нотации. По сути, MLM позволяет модели изучать музыкальный синтаксис, аналогично тому, как она изучает грамматику естественного языка, что критически важно для последующих задач, таких как генерация и анализ музыкальных произведений.

Нормализованная матрица ошибок классификации композиторов (CB + PDMX→BM, слой 6, усредненная по 5 фолдам) показывает, что большинство ошибок возникают между композиторами со схожим стилем (например, Григ↔Шопен, Гайдн↔Моцарт), что указывает на то, что ошибки отражают реальную стилистическую близость, а не случайный шум.

BMdataset: Ресурс для Моделирования Музыкального Языка

Набор данных BMdataset, сформированный на основе материалов сайта BaroqueMusic.it, представляет собой музыкально обоснованную коллекцию из 347 компилируемых файлов в формате LilyPond. Этот источник обеспечивает структурированные музыкальные данные, пригодные для непосредственного использования в задачах машинного обучения и анализа. Каждый файл представляет собой полный музыкальный фрагмент, что позволяет использовать набор данных для различных целей, включая моделирование музыкального языка и генерацию музыки в стиле барокко. Особенностью является то, что данные были тщательно отобраны и отформатированы, что обеспечивает их консистентность и пригодность для обучения моделей.

Особое внимание уделено курации данных в BMdataset, что обеспечивает высокое качество и согласованность данных, используемых для обучения моделей. Тщательная проверка и стандартизация музыкальных произведений позволяют минимизировать ошибки и неоднозначности, которые могут негативно повлиять на результаты анализа. Это, в свою очередь, повышает надежность и точность последующего анализа, такого как классификация стилей и композиторов, а также генерация музыкального контента. Согласованность данных является критически важным фактором для эффективного обучения моделей машинного обучения, поскольку позволяет им более точно выявлять закономерности и взаимосвязи в музыкальном материале.

Набор данных BMdataset содержит 90 миллионов токенов, что значительно меньше, чем 15 миллиардов токенов в наборе данных PDMX. Несмотря на меньший размер, BMdataset обеспечивает достаточный объем данных для обучения моделей музыкального языка, особенно учитывая его кураторский подход к качеству и консистентности данных. Различия в объеме токенов обусловлены как размером исходного корпуса, так и стратегиями токенизации, применяемыми к нотным данным.

Структура набора данных BMdataset позволяет моделям машинного обучения выявлять взаимосвязи между различными музыкальными элементами, такими как ноты, аккорды, ритмические паттерны и гармонические последовательности. Это достигается за счет последовательной организации музыкальных данных в наборе, что позволяет модели прогнозировать следующие элементы в последовательности на основе предыдущих. В результате, модель может научиться различать стилистические особенности и индивидуальные черты композиторов, что делает возможным выполнение задач классификации по стилю и авторству. Обучение на структурированных данных позволяет модели формировать внутреннее представление о музыкальном языке и его правилах.

Набор данных BMdataset содержит произведения 71 уникального композитора и состоит из 2646 музыкальных фрагментов (movements). Данное разнообразие позволяет моделям обучаться на широком спектре стилей и техник, представляющих различные авторские подходы. Количество движений в наборе данных обеспечивает достаточное количество материала для анализа и моделирования музыкальных структур, что способствует более точной и всесторонней оценке музыкального языка.

Анализ точности извлечения информации о композиторе и стиле показывает, что признаки композитора наиболее ярко выражены в средних слоях сети (6-9), в то время как признаки стиля наиболее сильны в начальных слоях и ослабевают по мере приближения к выходному слою.

LilyBERT: Оценка Музыкального Понимания

Модель LilyBERT, разработанная на базе CodeBERT и предварительно обученная методом маскированного языкового моделирования (MLM) на наборе данных BMdataset, демонстрирует принципиальную возможность адаптации языковых моделей для обработки и понимания символической музыки. Данный подход позволяет рассматривать музыкальную нотацию не как набор отдельных символов, а как язык, со своей структурой и правилами, что открывает новые перспективы для автоматического анализа, генерации и редактирования музыкальных произведений. Использование предварительно обученной модели CodeBERT, изначально предназначенной для работы с кодом программирования, оказалось удачным решением, поскольку структура музыкальной нотации, особенно в формате LilyPond, имеет схожесть со структурой программного кода. Это позволяет модели эффективно извлекать и использовать информацию о музыкальных элементах, таких как ноты, аккорды, ритм и гармония, что является ключевым шагом к созданию искусственного интеллекта, способного понимать и творить музыку.

Для оценки качества представлений, полученных моделью LilyBERT, использовался метод линейного зондирования. Суть подхода заключается в обучении классификатора непосредственно на основе выходных данных модели, что позволяет оценить, насколько эффективно LilyBERT кодирует информацию о музыкальных произведениях. В ходе эксперимента, классификатор обучался определять композитора или стиль произведения, используя только признаки, извлеченные моделью. Высокая точность классификации — 84.3% для определения композитора и 83.7% для определения стиля — свидетельствует о том, что LilyBERT успешно усваивает и представляет ключевые характеристики музыкальных произведений, даже при обучении на относительно небольшом корпусе Mutopia.

Исследование продемонстрировало впечатляющую точность классификации музыкальных композиторов и стилей, достигающую 84.3% на корпусе Mutopia и 83.7% соответственно. Примечательно, что данная точность превосходит результаты, полученные при использовании значительно более крупных наборов данных, полученных путем автоматической конвертации нотных записей. Это указывает на то, что модель, обученная на структурированных данных, эффективно извлекает существенные признаки, определяющие авторство и стилистические особенности музыкальных произведений, превосходя по качеству результаты, полученные при анализе менее точных, автоматически сгенерированных данных.

Расширение обучающей выборки за счет включения корпуса PDMX-LilyPond демонстрирует значительное улучшение обобщающей способности модели LilyBERT. Использование более разнообразного и объемного набора данных позволяет модели лучше понимать и интерпретировать сложные музыкальные структуры. В результате, LilyBERT получает возможность более эффективно работать с новыми, ранее не встречавшимися музыкальными произведениями, что подтверждается повышением точности классификации композиторов и стилей. Данный подход подчеркивает важность качественного и репрезентативного набора данных для успешного обучения моделей, работающих с символическим представлением музыки, и открывает перспективы для создания более интеллектуальных и адаптивных систем анализа и генерации музыки.

Представленный труд демонстрирует важность не простого объема данных, но и их качества и осмысленной организации. Как отмечает Дональд Кнут: «Прежде чем оптимизировать код, убедитесь, что он работает». В данном исследовании, BMdataset, тщательно отобранный набор данных LilyPond, превосходит по своим показателям автоматически сгенерированные массивы. Этот подход подчеркивает, что эффективное представление символической музыки требует не только мощных моделей, таких как LilyBERT, но и глубокого понимания музыкальной структуры и ее отражения в коде. Успех BMdataset подтверждает тезис о том, что продуманная структура определяет поведение системы, в данном случае, способность модели к обучению и генерации музыки.

Куда двигаться дальше?

Представленный труд, демонстрируя превосходство тщательно отобранных данных над массивами, полученными автоматической конвертацией, лишь подчеркивает давнюю истину: качество всегда превалирует над количеством. Однако, задача создания действительно “экспертно отобранного” набора данных для символической музыки остается сложной. Автоматизация процесса курирования, возможно, с использованием активного обучения и привлечением экспертов для верификации, представляется следующим логичным шагом. В противном случае, прогресс будет ограничен скоростью, с которой можно вручную обрабатывать и аннотировать музыкальный материал.

Более того, сама архитектура моделей, используемых для представления символической музыки, требует дальнейшего осмысления. Успех LilyBERT, основанного на CodeBERT, намекает на то, что восприятие музыки как кода — плодотворный подход. Однако, необходимо исследовать, как лучше интегрировать музыкальные знания — гармонию, контрапункт, форму — непосредственно в архитектуру модели, а не полагаться исключительно на обучение на данных. В противном случае, модель останется лишь статистическим эмулятором, лишенным истинного понимания.

Хорошая архитектура незаметна, пока не ломается, и только тогда видна настоящая цена решений. В конечном счете, истинный тест для этих методов — не в достижении высоких показателей на бенчмарках, а в способности генерировать музыку, которая не только технически корректна, но и обладает эстетической ценностью. А это, как известно, задача, значительно превосходящая возможности любой модели.

Оригинал статьи: https://arxiv.org/pdf/2604.10628.pdf

Связаться с автором: https://www.linkedin.com/in/avetisyan/

Смотрите также:

2026-04-14 20:43

🚀 Квантовые новости