
L’intelligenza artificiale generativa ha trasformato il modo in cui si crea, si immagina e si interagisce con i contenuti digitali. Con l’aumento della complessità e delle dimensioni dei modelli, cresce anche la richiesta di VRAM (memoria video ad accesso casuale). Ad esempio, il modello base Stable Diffusion 3.5 Large richiede oltre 18 GB di VRAM, limitando l’accessibilità a una fascia ristretta di sistemi in grado di eseguirlo in modo fluido. Una soluzione è la quantizzazione, ovvero l’eliminazione di componenti non essenziali del modello per ridurne le dimensioni e migliorarne le prestazioni, senza compromettere la qualità. Le GPU NVIDIA GeForce RTX serie 40 e le NVIDIA RTX PRO basate su architettura Ada Lovelace supportano la quantizzazione FP8, mentre le GPU NVIDIA Blackwell aggiungono il supporto per FP4, permettendo ulteriori ottimizzazioni.
In collaborazione con Stability AI, NVIDIA ha quantizzato Stable Diffusion 3.5 Large in FP8, ottenendo una riduzione del 40% nell’uso di VRAM. L’ottimizzazione con l’SDK NVIDIA TensorRT ha inoltre raddoppiato le prestazioni per le versioni Large e Medium del modello.
TensorRT è stato anche riprogettato per i PC RTX AI, combinando le sue prestazioni avanzate con tecnologie come la compilazione just-in-time (JIT), la creazione di motori direttamente sul dispositivo e un pacchetto 8 volte più leggero, pensato per una distribuzione semplice e veloce su oltre 100 milioni di PC RTX AI. TensorRT per RTX è ora disponibile come SDK autonomo per sviluppatori, aprendo nuove possibilità per integrare IA avanzata a livello locale con efficienza e velocità.
AI più veloce con RTX
NVIDIA e Stability AI stanno spingendo al massimo le prestazioni di Stable Diffusion 3.5, uno dei modelli di generazione immagini più usati al mondo, riducendo al tempo stesso l’uso di VRAM. Grazie all’accelerazione e alla quantizzazione tramite NVIDIA TensorRT, gli utenti possono ora generare e modificare immagini in modo più rapido ed efficiente sulle GPU NVIDIA RTX.
Per superare i limiti di memoria del modello SD3.5 Large, NVIDIA ha quantizzato il modello in FP8 con TensorRT, abbassando i requisiti di VRAM da oltre 18 GB a soli 11 GB, un taglio del 40%. Ciò significa che cinque GPU GeForce RTX serie 50 possono eseguire il modello interamente dalla memoria, anziché una sola.
I modelli SD3.5 Large e Medium sono stati ottimizzati anche con TensorRT, un backend AI che sfrutta appieno i Tensor Core. TensorRT ottimizza i pesi e il grafico di un modello, ovvero le istruzioni su come eseguire un modello, specificamente per le GPU RTX.
In combinazione, FP8 TensorRT offre un aumento delle prestazioni di 2,3 volte su SD3.5 Large rispetto all’esecuzione dei modelli originali in BF16 PyTorch, utilizzando il 40% di memoria in meno. E in SD3.5 Medium, BF16 TensorRT offre un aumento delle prestazioni di 1,7 volte rispetto a BF16 PyTorch.
I modelli ottimizzati sono ora disponibili sulla pagina Hugging Face di Stability AI.
Inoltre, NVIDIA e Stability AI stanno lavorando al rilascio di SD3.5 come microservizio NVIDIA NIM, rendendo più semplice per sviluppatori e creator integrare il modello in una vasta gamma di applicazioni. Il microservizio NIM sarà disponibile a partire da luglio.
Disponibile TensorRT per RTX SDK
Presentato in anteprima al Microsoft Build e già incluso nel nuovo framework Windows ML, TensorRT per RTX è ora disponibile anche come SDK standalone per gli sviluppatori.
In passato, era necessario generare e impacchettare in anticipo i motori TensorRT per ogni classe di GPU, ottenendo ottimizzazioni specifiche ma richiedendo tempo e risorse. Con questa nuova versione, gli sviluppatori possono invece creare motori generici ottimizzati direttamente sul dispositivo in pochi secondi, grazie alla compilazione JIT (just-in-time). Questo processo può avvenire in background, durante l’installazione o al primo avvio di una funzione.
Il nuovo SDK è inoltre 8 volte più leggero e facilmente integrabile. Può essere utilizzato tramite Windows ML, il backend AI di nuova generazione integrato in Windows. Gli sviluppatori possono scaricare l’SDK direttamente dalla pagina NVIDIA Developer, oppure provarlo nella preview di Windows ML.
Per saperne di più, consulta il blog tecnico NVIDIA e questo recap di Microsoft Build.
Unisciti a NVIDIA al GTC Paris
In occasione del NVIDIA GTC Paris ospitato a VivaTech, il più grande evento europeo dedicato a startup e innovazione tecnologica, Jensen Huang, fondatore e CEO di NVIDIA, ha tenuto ieri un keynote sulle più recenti innovazioni in tema di infrastrutture cloud per l’IA, AI agentica e AI fisica. Guarda il discorso qui.
Il GTC Paris continua fino a giovedì 12 giugno, con demo interattive e sessioni guidate dai principali esperti del settore. Che tu stia partecipando di persona o da remoto, c’è ancora molto da scoprire.
Ogni settimana, il blog RTX AI Garage offre approfondimenti e novità sull’IA guidata dalla community, inclusi aggiornamenti su microservizi NVIDIA NIM, Blueprint per l’AI, agenti AI, flussi creativi, digital human, applicazioni per la produttività e altro, pensati per PC e workstation AI.