Корпорация Google представила генеративную нейросеть MusicLM, которая способна создавать музыку по текстовому описанию и по изображениям. Доступ к ней пока открывать не будут.
Новинка обучена на 280 тысячах часов музыки и может создавать треки в любых жанрах. Также нейросеть учитывает нюансы описания. К примеру, ей можно задать трек, который может вызвать «ощущение пребывания в космосе» или «основной саундтрек аркадной игры».
Нейросеть может основываться на существующих мелодиях, которые пользователь напевает, наигрывает или насвистывает. Кроме того, система воспринимает несколько последовательно написанных описаний, чтобы создать длинный трек.
Помимо этого, задание для MusicLM можно поставить, комбинируя изображение и подписи к нему, установить уровень опыта виртуального «музыканта» или сгенерировать звук определенного инструмента. Наконец, система может создавать вокальные партии, но они зачастую не являются полноценными текстами, а лишь подобием.
Ранее сообщалось о системе Riffusion, которая может создавать музыку на основе изображений. Сама Riffusion базируется на Stable Diffusion, но при этом использует изображения в качестве основы для звуковых спектрограмм.