NVIDIA ha appena presentato Audio-SDS, un sistema di generazione audio multimodale capace di creare effetti sonori realistici partendo da una varietà di input: testi, immagini, video, waveform e perfino combinazioni di questi. Una vera rivoluzione nel campo dell’audio generativo, progettata per superare i limiti dei modelli esistenti e creare contenuti coerenti con il contesto visivo o narrativo.A differenza dei classici modelli one-shot, Audio-SDS utilizza una struttura a due stadi, che lo rende in grado di generare effetti sonori altamente dettagliati, mantenendo sincronizzazione e fedeltà semantica.
La pipeline Audio-SDS prevede:
Durante i test, Audio-SDS ha dimostrato di:
Un esempio: dato un video di un cane che corre nell’acqua, Audio-SDS ha prodotto un suono realistico di schizzi + abbaio sincronizzato, perfettamente allineato al movimento.
Audio-SDS si presta a moltissimi contesti:
NVIDIA ha confrontato Audio-SDS con i modelli leader nel settore, tra cui:
Risultati:
Il sistema supporta anche input concatenati, come video + testo o immagine + prompt descrittivo, migliorando ulteriormente la precisione del suono.
Audio-SDS è disponibile in open access per la comunità scientifica e lo sviluppo creativo. Sul sito ufficiale è possibile:
Nei prossimi mesi si prevede il rilascio completo su Hugging Face e l’integrazione in strumenti creativi e di editing audio professionale.
Demo ufficiale: https://research.nvidia.com/labs/toronto-ai/Audio-SDS/