Aaron Schneider, Associate Solutions Engineer di Couchbase riflette sui pregiudizi che ruotano attorno all’Intelligenza Artificiale e il perché. Esiste però una soluzione che aiuta a ridurre tali pregiudizi.
Con il rilascio lo scorso anno di DALL-E 2 e ChatGPT da parte di OpenAI, anche i singoli individui hanno avuto modo di iniziare a interagire con l’Intelligenza Artificiale (IA), osservandone il potenziale in prima persona, anche se in misura ridotta.
Si tratta di strumenti che possono sembrare magici, ricevono una richiesta testuale e forniscono una risposta. DALL-E trasforma il testo in un’immagine, ChatGPT avvia un’intera conversazione. Ad esempio, chiedete un gattino addormentato a DALL-E e otterrete una selezione di splendide immagini. Chiedete a ChatGPT di scrivere un saggio sulla Rivoluzione americana e otterrete un testo coerente.
Tuttavia, questi strumenti (e altri simili) non sono assolutamente magici e certo non infallibili. Infatti, se li guardiamo più da vicino, inizieremo a vedere come. Avete chiesto a DALL-E qualcosa relativo a mani o testo? Probabilmente rimarrete delusi dalle “mani”, la tesi sulla Rivoluzione Americana? Beh, potrebbe avere qualche imprecisione o una formulazione non del tutto corretta.
La strana mano dell’uomo che saluta e le ripetizioni nei paragrafi nella tesi sulla Rivoluzione Americana.
La viralità di questi due strumenti ci ha portato a confrontarci con le complesse ramificazioni sociali e legali relative alla democratizzazione degli strumenti di IA.
Ci si può fidare dell’Intelligenza Artificiale?
Nel momento del rilascio di ChatGPT in molti hanno reagito affermando che Google fosse nei guai. Perché usare Google per una ricerca, quando si può chiedere a ChatGPT? In realtà, con i suoi significativi investimenti in intelligenza artificiale, Google ha già realizzato uno strumento simile. Infatti, ha anche mostrato pubblicamente delle demo del proprio motore di linguaggio naturale, chiamato LaMDA AI, in cui l’utente può parlare con il pianeta Plutone e porgli tutte le domande che desidera. Tuttavia, Google non lo ha mai reso disponibile. Perché?
In una recente riunione, il CEO di Google, Sundar Pichai, ha risposto a questa domanda citando il rischio di reputazione di un tale prodotto, facendo notare che i clienti si fidano intrinsecamente dei risultati di ricerca di Google e che “per le applicazioni di ricerca, i problemi di fattualità sono molto importanti, mentre per altre applicazioni sono fondamentali i problemi di parzialità, tossicità e sicurezza”.
Sì, risultati di ricerca imprecisi danneggerebbero l’immagine di Google, ma la seconda affermazione rivela il vero rischio. Formulando la domanda in un determinato modo, si potrebbero ottenere da ChatGPT contenuti apertamente falsi o decisamente offensivi.
Mentre Google sta lentamente e metodicamente tracciando il suo futuro nell’IA, altri stanno cogliendo l’opportunità di sconvolgere lo status quo. Con il recente annuncio dell’intenzione di Microsoft di arricchire alcuni dei suoi prodotti principali (Office e Bing) con la tecnologia di OpenAI, dobbiamo guardare più da vicino per capire perché i motori di IA hanno il potenziale per essere disprezzati. Purtroppo, non è colpa dell’IA. Per capire perché, dobbiamo sbirciare dietro le quinte.
All’interno del cervello dell’Intelligenza Artificiale
DALL-E e ChatGPT sono entrambi modelli di machine learning, utilizzano tecniche di modellazione ben studiate per creare sistemi predittivi che ricevono un input e restituiscono un output. DALL-E è stato alimentato con miliardi di coppie di immagini e didascalie provenienti da Internet e ha imparato come si relazionano, in modo tale che quando viene fornita una nuova didascalia possa generare un’immagine corrispondente. ChatGPT si basa sul modello linguistico GPT3, che ha ingerito testo da Internet e, quando gli viene chiesto di pronunciare una parola, può prevedere quale debba seguire. Il modello è stato poi implementato in un framework conversazionale.
Il motivo per cui modelli come ChatGPT possono produrre risultati offensivi, razzisti o sessisti è che sono stati addestrati su un set di dati che conteneva milioni di esempi di contenuti negativi. Internet è pieno di persone che dicono cose terribili, usarlo come fonte di dati per addestrare un modello insegnerà senza dubbio a dire quelle stesse cose.
Questo spiega perché aziende come Google approcciano con timore il rilascio di modelli di IA così complessi. Una volta terminato il complicato addestramento, non si può essere certi che, dato un particolare input, l’output prodotto sia accettabile.
Il problema non è nuovo. Si parla di pregiudizi dell’Intelligenza Artificiale quando un modello riflette i pregiudizi intrinseci del suo autore umano, impliciti nel set di dati. Cosa fare per ridurre questo rischio?
Shift Right: l’approccio ChatGPT
OpenAI era perfettamente consapevole di questo problema ben prima di rilasciare ChatGPT, tanto da aver previsto delle barriere per evitarlo. Il loro approccio era semplice: non permettete a ChatGPT di rispondere a domande che potrebbero suscitare risposte inappropriate. Il tool ha un elenco di parole chiave e frasi proibite alle quali non risponderà o risponderà in modo specifico. Si tratta di una strategia corretta, ma è chiaro che non sia infallibile.
Shift Left: l’approccio sicuro dal punto di vista della reputazione
Una strategia di più lungo termine consiste nel prendere in considerazione l’inizio del processo: se si eliminano i pregiudizi dal set di dati prima che il modello abbia la possibilità di apprenderli, si annulla di fatto la possibilità di creare un’intelligenza artificiale distorta.
Sebbene OpenAI abbia cercato di limitare l’esposizione di GPT3 e DALL-E a testi e immagini inadeguati, non è stato efficace al 100%. La possibile soluzione? Realizzare prodotti di IA da applicare a casi d’uso più contenuti dove l’insieme di dati in ingresso è limitato.’
Rimozione automatica dei pregiudizi, l’approccio di Couchbase
In qualità di custode dei dati, l’obiettivo di Couchbase è quello di mettere gli utenti in condizione di realizzare modelli di Intelligenza Artificiale imparziali, consentendo ai ricercatori di rimuovere automaticamente le informazioni “rischiose” da un set di dati AI.
Questo è possibile grazie al servizio Eventing, che consente di attivare in tempo reale sul server la logica di business definita dall’utente quando le interazioni dell’applicazione creano cambiamenti nei dati. In questo modo, è possibile verificare ed eventualmente rimuovere ogni contenuto potenzialmente controverso prima ancora che venga reso disponibile dal modello IA utilizzato, realizzando un incrocio virtuoso tra processi algoritmici e revisione umana e garantendo che il responso fornito dall’IA non vada contro i modelli di etica generalmente accettati, e promossi dalle aziende.
L’intelligenza artificiale è ormai onnipresente nella vita quotidiana di tutti e in futuro, dopo aver attraversato una fase di maturazione che ci permetterà di farvi sempre più affidamento, lo sarà ancora di più. Per questo è importante non sottovalutarla.
di Aaron Schneider, Associate Solutions Engineer, Couchbase