Производителят на чипове NVIDIA представи нов експериментален генеративен AI модел, наречен Fugatto, който се описва като “швейцарско ножче за аудио.” Моделът може да приема текстови команди и да ги използва за създаване на аудио или за модифициране на съществуваща музика, гласови и звукови файлове.
Според разработчиците на модела, той може да бъде полезен на музикалните продуценти, които биха могли бързо да генерират прототип за песен и след това лесно да го редактират, за да изпробват различни стилове, гласове и инструменти. Fugatto може да бъде използван и за създаване на материали за езикови учебни инструменти с избран от потребителя глас.
Разработчиците на видеоигри биха могли да го използват за създаване на вариации на предварително записани активи, които да съответстват на промените в играта в зависимост от изборите и действията на играчите. Освен това, изследователите установили, че моделът може да изпълнява задачи, които не са били част от предварителното му обучение, като генериране на реч с определен акцент или звукове на птици, пеещи по време на буря.
NVIDIA не споменава дали ще даде публичен достъп до Fugatto, но моделът не е първата генеративна AI технология, която може да създава звуци от текстови команди. Meta вече пусна отворен AI комплект, който може да създава звуци от текстови описания. Google също има собствен AI за текст към музика, наречен MusicLM, достъпен чрез AI Test Kitchen на компанията.