Microsoft e NVIDIA potenziano i PC RTX AI: i più recenti tool e funzionalità di AI accelerano lo sviluppo delle app Windows

AI Decoded_11.19.24_MSFT Ignite

Alla Microsoft Ignite 2024 si annunciano grandi progressi nel settore del gaming, nella creazione di contenuti, nella produttività e nello sviluppo. Oggi, infatti, oltre 600 app e giochi per Windows stanno già eseguendo l’AI localmente su più di 100 milioni di PC GeForce RTX AI in tutto il mondo, offrendo prestazioni veloci, affidabili e a bassa latenza. Così laptop e PC alimentati dall’AI generativa stanno consentendo grandi progressi.

Durante la conferenza Microsoft Ignite, NVIDIA e Microsoft hanno per l’appunto annunciato strumenti per aiutare gli sviluppatori Windows a realizzare e ottimizzare rapidamente le app basate sull’Intelligenza Artificiale sui PC AI RTX, rendendo l’Intelligenza Artificiale locale molto più accessibile. Questi nuovi strumenti permettono agli sviluppatori di applicazioni e giochi di sfruttare la potenza delle GPU RTX per accelerare i workflow complessi dell’intelligenza artificiale per applicazioni quali AI agents, app assistants e digital humans.

I PC AI RTX potenziano i Digital Humans

Vi presentiamo James, un digital human interattivo che conosce NVIDIA e i nostri prodotti. James utilizza una serie di microservizi NVIDIA NIM, NVIDIA ACE e le tecnologie umane digitali di ElevenLabs per fornire risposte naturali e coinvolgenti. 

NVIDIA ACE

NVIDIA Ace è una suite di tecnologie umane digitali che dà vita ad agenti, assistenti e avatar. Per raggiungere un livello di comprensione superiore che consenta loro di rispondere con maggiore consapevolezza del contesto, i digital human devono essere in grado di percepire visivamente il mondo come fanno gli umani. Il miglioramento delle interazioni umane digitali con un maggiore realismo richiede una tecnologia che consenta la percezione e la comprensione dell’ambiente circostante con maggiori sfumature. Per raggiungere questo obiettivo, NVIDIA ha sviluppato modelli linguistici multimodali di piccole dimensioni in grado di elaborare sia testo che immagini, di eccellere nel gioco di ruolo e di essere ottimizzati per tempi di risposta rapidi.

NVIDIA Nemovision-4B-Instruct e NVIDIA NeMo

Il modello NVIDIA Nemovision-4B-Instruct, presto disponibile, si avvale dei più recenti framework NVIDIA VILA e NVIDIA NeMo per la scomposizione, il pruning e la quantizzazione, in modo da diventare sufficientemente piccolo da poter essere eseguito sulle GPU RTX con la precisione richiesta dai developer. Il modello consente agli esseri umani digitali di comprendere le immagini visive nel mondo reale e sullo schermo per fornire risposte pertinenti. La multimodalità funge da base per i workflow agenziali e offre un’anticipazione di un futuro in cui gli umani digitali possono ragionare e agire con un’assistenza minima da parte dell’utente.

La famiglia Mistral NeMo Minitron 128k Instruct

NVIDIA sta inoltre introducendo la famiglia Mistral NeMo Minitron 128k Instruct, una suite di modelli linguistici di piccole dimensioni ad ampio contesto progettati per ottimizzare e rendere efficienti le interazioni umane digitali. Disponibili nelle versioni a 8B, 4B e 2B parametri, questi modelli offrono opzioni flessibili per bilanciare velocità, utilizzo della memoria e precisione sui PC RTX AI. Possono gestire grandi insiemi di dati in un unico passaggio, eliminando la necessità di segmentare e riassemblare i dati. Costruiti nel formato GGUF, questi modelli migliorano l’efficienza sui dispositivi a basso consumo e supportano la compatibilità con diversi linguaggi di programmazione.

Aumentare la potenza dell’IA con NVIDIA TensorRT Model Optimizer

Quando i developer trasferiscono i modelli su PC, devono affrontare la sfida di gestire risorse di memoria e capacità di calcolo limitate, necessarie per eseguire l’intelligenza artificiale in locale. Inoltre, vogliono rendere i modelli disponibili al maggior numero di persone possibile, con una perdita di precisione minima.

Oggi NVIDIA ha annunciato gli aggiornamenti di NVIDIA TensorRT Model Optimizer (ModelOpt) per offrire ai developer Windows un modo migliore di ottimizzare i modelli per la distribuzione di ONNX Runtime. Con gli ultimi aggiornamenti, TensorRT ModelOpt consente di ottimizzare i modelli in un checkpoint ONNX per la distribuzione del modello all’interno degli ambienti di runtime ONNX – utilizzando provider di esecuzione su GPU come CUDA, TensorRT e DirectML.

TensorRT-ModelOpt include algoritmi di quantizzazione avanzati, come INT4-Activation Aware Weight Quantization (AWQ). Rispetto ad altri tool come Olive, il nuovo metodo riduce ulteriormente l’ingombro di memoria del modello e migliora le prestazioni di throughput sulle GPU RTX.

Durante l’implementazione, i modelli possono avere un ingombro di memoria ridotto fino a 2,6 volte rispetto ai modelli FP16. Ciò si traduce in un throughput più veloce, con un degrado minimo dell’accuratezza, che ne consente l’esecuzione su una gamma più ampia di PC.