Dataset disomogenei, sporchi o scarsi rendono inefficace l’apprendimento degli algoritmi intelligenti. Il problema pesa in particolare nei settori a elevata intensità di conoscenza, come quello finanziario. Ecco perché e come i dati sintetici possono cambiare le cose

Nel mese di luglio è rimbalzata sulla stampa mondiale la notizia di uno studio condotto da un gruppo di ricercatori di Stanford e Berkeley in cui emergeva che ChatGPT sta diventando sempre più “stupido”. “L’accuratezza delle risposte è inferiore e gli errori misurabili sempre più frequenti”. Perché? La ragione, per dirla in parole semplici, sta nel fatto che gli utenti che hanno usato questa intelligenza artificiale nei mesi precedenti l’hanno addestrata in maniera fuorviante, introducendo dati non omogenei e soprattutto sporchi.

Questo non succede solo per la più nota delle intelligenze artificiali. Tutti i modelli di AI se lavorano su dati scarsi, disomogenei e instabili, rischiano di non funzionare o di funzionare male disperdendo risorse economiche e umane utilizzate per realizzarli.  Una considerazione che vale soprattutto per quei settori ad alta intensità di conoscenza. Tra questi, uno in particolare, quello bancario, che secondo i dati del rapporto Abi Lab Scenari e Trend del mercato ICT per il settore bancario sta molto investendo in intelligenza artificiale. Il 68% degli istituti di credito si sta infatti muovendo in quella direzione, usando l’intelligenza artificiale in molti ambiti, dalla gestione della sicurezza alle operation, dalla fornitura di assistenza interna (ai dipendenti) a quella esterna (ai clienti) con chatbot o call center. Insomma, la corsa all’intelligenza artificiale proseguema produce buoni frutti?

Investimenti in AI? Quando non c’è vantaggio

La corsa all’intelligenza artificiale prosegue quindi con investimenti massicci da parte delle aziende di tutti i settori, compreso quello finanziario. Ma solo in rari casi questo trend ha portato alla creazione di prodotti o servizi concreti, trasformandosi in un vero ritorno sull’investimento. Secondo McKinsey nel suo report The state of AI in 2023: Generative AI’s breakout year, l’adozione di AI è stabile nel 2022: il 55% degli intervistati afferma che la propria azienda usa l’intelligenza artificiale in almeno una funzione, rispetto al 56% del 2021 Global Survey 2021 di McKinsey e al 50% del 2020.

È sempre McKinsey a rilevare che il 2022 sia stato l’anno dell’AI generativa, che impatta in particolare i settori industriali ad alta intensità di conoscenza. Ovvero le società tech (le cui entrate aumenteranno fino al +9% per effetto di questa tecnologia), le banche (fino a +5% l’impatto sui ricavi), il pharma e medical (fino a + 5%) e istruzione (fino al 4%) che spesso usano questo tipo di intelligenza artificiale per specifiche funzioni aziendali per supportare il marketing e le vendite, per sviluppare prodotti, servizi o operazioni di servizio, come l’assistenza clienti e il supporto di back-office.

Il tema è che, però, come mostrano numerose altre analisi riferite sempre al 2022, la maggior parte delle iniziative di intelligenza artificiale (nell’ordine del 60%-80%) non entra in produzione. E questa mancata implementazione dipende dalla mancanza di dati: un assurdo logico nell’era dell’overload informativo, ma sensato. Perché i dati sono disponibili in quantità abnormi ma spesso non di buona qualità e viziati da pregiudizi.

I dati spuri che falsano il potenziale dell’AI nelle banche. La necessità di modelli spiegabili e omogenei

Dunque, i modelli sviluppati in laboratorio spesso non possono essere messi in produzione a causa di preoccupazioni legate al rischio, alla conformità e all’eticità dei risultati che producono. In ambiente reale, infatti, la maggior parte di tali modelli risultano instabili e difficili da comprendere. In una parola: sono stupidi, come è diventato ChatGpt con l’uso degli utenti.

In ambito bancario, la spiegabilità e l’accuratezza dei modelli è cruciale. Dati sporchi o sbilanciati rendono poco affidabili i modelli di propensity (che prevedono i comportamenti degli utenti): modelli che tentano di prevedere i tassi di abbandono, quelli che si concentrano sugli acquisti successivi e quelli di upselling, che cercano di individuare quali clienti sono propensi a passare da un conto normale al premium.

Lo stesso vale per i modelli di fraud detection, in cui l’AI impara a riconoscere potenziali attività fraudolente a partire dallo “studio” delle caratteristiche dei casi storici, o per quelli di analisi del merito di credito di individui e aziende per l’erogazione di prestiti. In entrambi i casi i dati disponibili per l’addestramento dell’AI sono rari e spesso variabili, non sufficienti a far sì che l’algoritmi funzioni efficacemente. Anche perché si tratta di funzioni critiche per la banca: se si usa un modello per l’erogazione dei crediti, per esempio, il modello deve essere interpretabile, ovvero deve spiegare perché un prestito viene rifiutato e deve garantire che il prestito venga erogato a parità di comportamento dell’utente.

Il ruolo dei dati sintetici 

I dati sintetici giocano un ruolo cruciale nel risolvere i problemi generati da dati sporchi o sbilanciati. Perché, riproducendo i dati naturali dopo averli depurati dai difetti, arricchiscono e puliscono il dataset, assicurando che i modelli sviluppati siano omogenei e spiegabili. Ciò permette loro di funzionare in modo più efficace in un ambiente aziendale reale. Ad esempio, grazie alla nostra generazione di dati sintetici siamo riusciti ad ottenere un miglioramento del 15% nella capacità da parte di un modello di rilevamento delle frodi bancarie di identificare correttamente le richieste fraudolente.

Si tratta di una tecnologia neonata, ma intorno a cui monta sempre maggior interesse. Attualmente, i dati sintetici rappresentano solo l’1% di tutti i dati digitaliUn’analisi di Gartner prevede che il mercato crescerà fino a che, nel 2024, il 60% dei dati utilizzati in progetti AI sarà generato sinteticamente. Entro il 2027 si prevede che il segmento di mercato dei dati sintetici crescerà fino a un valore complessivo di 1,15 miliardi di dollari.

Protezione della privacy: il vantaggio collaterale dei dati sintetici

Un altro vantaggio cruciale che i dati sintetici consentono di ottenere nei modelli predittivi delle banche è la protezione dei dati sensibili. Pensiamo ancora una volta agli algoritmi predittivi per l’erogazione del credito: con i dati sintetici, quando si deve valutare se concedere un prestito, è possibile sintetizzare i dati sensibili dei richiedenti (come le transazioni finanziarie) in dati finti ma realistici. Questi vengono poi utilizzati per alimentare modelli decisionali.  Nel caso in cui i dati venissero rubati, sarebbe certamente meno grave il furto di un’informazione sintetica piuttosto che quello di informazioni riconducibili ai cittadini.

Secondo Gartner, nel 2024 i dati sintetici diventeranno una materia prima fondamentale per risolvere i problemi legati all’utilizzo dei dati sensibili e critici nelle banche. Questi dati sintetici aprono nuove opportunità per l’innovazione, la condivisione delle informazioni e la ricerca. Consentono alle banche di superare le restrizioni legate alla privacy e alla sicurezza, aprendo la strada a iniziative di open innovation e testing più sicure.

Un nuovo paradigma

Quello che spesso sfugge quando si parla di AI è che la costruzione del modello è solo una piccola parte del progetto. La fase precedente di data preparation è determinante e preponderante per la fase finale di testing e convalida. I dati sintetici contribuiscono a garantire che i modelli siano affidabili ed equi e dunque svolgono un ruolo essenziale nei modelli decisionali nel settore bancario. Potremmo dire che i dati sintetici rappresentano un nuovo paradigma per le banche. Le istituzioni finanziarie detengono enormi quantità di dati sensibili, spesso limitati da regolamentazioni rigide. I dati sintetici consentono di creare “gemelli digitali“, evitando la manipolazione di quelli originali e consentendo l’accesso sicuro a iniziative di innovazione, ricerca e testing. Ciò permette di superare le sfide legate alla sicurezza e alla conformità, generando nuove opportunità di utilizzo dei dati.

Finalmente nell’ultimo anno si è sviluppata una maggiore cultura e consapevolezza sulle tematiche legate ai dati sintetici. In molti iniziano a conoscere questo potentissimo strumento che Gartner ha incluso tra le tecnologie più promettenti per il futuro. Chi li conosce lo sa: i dati sintetici saranno una delle monete del domani.

A cura di Shalini Kurapati, Co-Founder e CEO di Clearbox AI