Нейросеть может не только в изображения и текст, но и в музыку

Procy_on 20 декабря 2022

Мы уже привыкли к тому, что искусственный интеллект может создавать изображения и делает это все лучше и лучше. Однако его возможности в плане создания контента становятся все шире, поскольку, как оказалось, он может также генерировать музыку.

Идея превратить ИИ в музыкального композитора принадлежит Сету Форсгрену и Хайку Мартиросу, которые адаптировали алгоритм Stable Diffusion к новой задаче, создав собственный инструмент под названием Riffusion. Он работает по принципу, схожему с вышеупомянутым Stable Diffusion, генерируя контент из текстового описания. Однако алгоритм был обучен работе со спектрограммой - визуализацией аудиосигнала.

Riffusion использует визуальный алгоритм Stable Diffusion версии 1.5 без каких-либо дополнительных модификаций. Создатели лишь немного подправили его, чтобы лучше обрабатывать изображения спектрограмм аудио в сочетании с текстом.

После создания новой спектрограммы Riffusion преобразует изображение в звук с помощью Torchadio. Алгоритм был обучен на спектрограммах, представляющих звуки и песни, принадлежащие к различным музыкальным жанрам, что позволяет ему генерировать новые аудио на основе всех видов текстовых подсказок.

Доработав идею, разработчики объединили все ее элементы в интерактивное веб-приложение, которое может опробовать любой желающий. Riffusion, после ввода текстового описания, начинает генерировать бесконечный контент в реальном времени, при этом визуализируя временную шкалу спектрограммы в 3D. Там же вы найдете несколько аудиообразцов, созданных ИИ, которые, как ни странно, звучат довольно хорошо, и если бы мы не знали, что они созданы алгоритмом, то могли бы подумать, что это творения человека.