21.06.2024

Нейросеть Riffusion генерирует и визуализирует музыку по описанию

Программисты создали модель искусственного интеллекта под названием Riffusion, которая может сочинять музыку из изображения, а если точнее, из аудиоспектрограммы — визуальных изображений звуковых частот. В свою очередь аудиоспектрограмма генерируется по текстовому описанию.

Спектрограммы — это визуальные представления звука, которые показывают амплитуду различных частот во времени. По ним можно определить отдельные ноты и даже инструменты, если знать, на что ориентироваться. И, разумеется, их можно конвертировать обратно в звук, чем и занимается Riffusion.

RiffusionЧасть песни Marconi’s Radio группы Secret Machines,

Созданный на базе Stable Diffusion инструмент сделал спектрограммы нескольких музыкальных композиций и пометил получившиеся изображения соответствующими терминами, такими как «блюзовая гитара», «джазовое пианино», «афробит» и тому подобное. Предоставление модели этой коллекции дало хорошее представление о том, как «выглядят» определённые звуки и как программа может воссоздать или комбинировать их. При этом разработчики смогли заставить нейросеть генерировать такие аудиоклипы, которые могли бы плавно «перетекать» друг в друга. То есть, где темп музыки не меняется резко.

Riffusion

И действительно, модель оказалась способной генерировать спектрограммы, которые при преобразовании в звук довольно хорошо соответствовали таким подсказкам, как «причудливое фортепиано», «джазовый саксофон» и так далее. 

Примеры созданной ИИ музыки можно оценить по ссылке.

Источник: techcrunch.com

Поделиться ссылкой: