L’osservabilità full-stack rappresenta una delle sei capacità tecniche chiave necessarie alle organizzazioni per passare al business assistito dall’intelligenza artificiale.

intelligenza-artificiale

Condividiamo un articolo di Lori MacVittie, Distinguished Engineer di F5, sui bias nell’AI (Intelligenza Artificiale) e come si insinuino in essa. Buona lettura!

Cosa sono i Bias nell’Intelligenza Artificiale e perché il settore IT dovrebbe occuparsene?

La premessa che desidero fare a questa analisi è che, in questa sede, non si tratta di stabilire se i bias (pregiudizi) nell’Intelligenza Artificiale e esistano o meno. Piuttosto, la domanda è: come vengono introdotti e perché il settore dell’IT dovrebbe preoccuparsene?

L’hype intorno all’AI non potrebbe essere più alto in questo momento. L’interesse è forte, la domanda è travolgente e tutti si affannano a cercare la “killer application” per il proprio mercato.

Ma, sotto il clamore, vengono espresse delle preoccupazioni, con buone ragioni.

Breve introduzione ai modelli di apprendimento dell’AI

Per comprendere come i bias hanno fatto il loro ingresso nell’AI, è necessario capire come vengono addestrati i modelli stessi di Intelligenza Artificiale.

I metodi, gli algoritmi e i modelli utilizzati oggi nell’Intelligenza Artificiale sono molto vasti e, in molti casi, difficili da comprendere per chi non è un profondo conoscitore del settore. Tuttavia, è importante capire, ad alto livello, come vengono addestrati i modelli, perché è così che si introducono i bias nell’AI. Tenendo presente questo aspetto, esistono tre modalità fondamentali per addestrare i modelli di intelligenza artificiale:

  1. Apprendimento supervisionato (Supervised learning). In questo caso, i dati di ingresso (input data) sono etichettati. Il sistema riconosce quale dovrebbe essere l’output in base all’insieme di dati e alle etichette utilizzati per addestrarlo ed è in grado di sfruttare questa conoscenza per prevedere altri valori. All’interno di questa categoria, vi sono due tipi principali di algoritmi utilizzati. Uno si basa sulla classificazione, in cui i dati vengono raggruppati in categorie basate su attributi quali colore, dimensione e forma. Il riconoscimento delle immagini rientra solitamente in questa categoria; altri casi d’uso diffusi sono, ad esempio, il rilevamento dello spam e il filtraggio delle e-mail. Il secondo utilizza la regressione matematica per scoprire modelli basati su una relazione lineare input e output. In questa metodologia, l’output è categorizzato al di fuori del modello, come succede ad esempio con le misurazioni del tempo meteorologico. Le tendenze del mercato e del meteo utilizzano spesso questa metodologia.
  2. Apprendimento non supervisionato (Unsupervised learning). Come suggerisce il termine “non supervisionato”, il sistema non riceve indicazioni sulla natura dei dati. I dati non sono etichettati. Il sistema deve scoprire in autonomia schemi e relazioni e prevedere un risultato. Gli algoritmi di apprendimento non supervisionato si basano su due tecniche diverse: il clustering e l’associazione. Con il clustering, si chiede al sistema di raggruppare i dati in base alle somiglianze, in modo che i dati di un gruppo abbiano poche o nessuna somiglianza con altri gruppi. Il comportamento di acquisto dei clienti è un caso d’uso di clustering. Con l’associazione, si chiede al sistema di trovare relazioni tra i dati, come le dipendenze tra di essi. Questo approccio è interamente basato sulla correlazione, non sulla causalità. I sistemi non supervisionati scoprono semplicemente “cose che vanno insieme ad altre cose“, non “cose che fanno accadere altre cose“. L’associazione è spesso utilizzata per il Web Usage Mining.
  3. Apprendimento per rinforzo (Reinforcement learning). L’apprendimento per rinforzo rappresenta una sorta di compromesso tra l’addestramento supervisionato e quello non supervisionato che cerca di minimizzare le debolezze di ciascuno. Con l’apprendimento per rinforzo, ai sistemi vengono forniti dati non etichettati da esplorare. I risultati vengono poi premiati positivamente o negativamente e il sistema “impara” a perfezionare le sue decisioni. Questo è il modello che si avvicina maggiormente alla modalità in cui gli esseri umani imparano, come si vede nell’uso di quiz e test nel processo educativo. I videogiochi, la robotica e il text mining rappresentano casi d’uso comuni dell’apprendimento per rinforzo.

Come i bias si insinuano nell’Intelligenza Artificiale

Bene, ora passiamo all’argomento centrale di questo articolo, ovvero come i bias possono introdursi nell’Intelligenza Artificiale.

La risposta, penso sia evidente, si basa sul fatto che gli esseri umani sono spesso coinvolti nel processo di training dei sistemi.

Il modo più semplice per influenzare l’apprendimento supervisionato è quello di “contaminare” i dati, per così dire, con un’etichettatura errata. Per esempio, se sto classificando degli animali, etichettare erroneamente un “cane” come “gatto” può portare a un’identificazione errata su scala abbastanza elevata. Un rischio di questo modello è l’etichettatura errata intenzionale (intentional mislabeling) con l’obiettivo di corrompere l’output. Alcune etichette errate sono semplicemente il prodotto del giudizio umano, come decidere se una pantera è un gatto o se la statua di un gatto conta come un gatto. Con l’apprendimento per rinforzo, premiare positivamente la risposta o la mossa sbagliata in un gioco potrebbe potenzialmente portare a un sistema che dà intenzionalmente le risposte sbagliate. Il che, per alcuni, potrebbe essere un’opzione interessante.

Ovviamente questo ha implicazioni per l’Intelligenza Artificiale generativa (conversazionale) come ChatGPT, che è stata messa a punto utilizzando “l’apprendimento supervisionato e l’apprendimento per rinforzo” che “ha utilizzato trainer umani per migliorare le prestazioni del modello”. Quando si sceglie l’opzione “up” o “down” per classificare le risposte, questi dati possono essere utilizzati per perfezionare ulteriormente il modello. Voi, cari lettori, suppongo siate umani. Ergo, esiste la possibilità di influenzare ulteriormente il sistema. La realtà è che ChatGPT spesso sbaglia clamorosamente le sue risposte. Il feedback è necessario per addestrare ulteriormente il sistema in modo che possa generare sempre più spesso la risposta giusta.

Ora, il vero motivo per cui ho desiderato affrontare questo argomento è che il problema dei bias si estende alla telemetria, i dati operativi che tutti desideriamo usare per guidare l’automazione dei sistemi e dei servizi che forniscono e proteggono i servizi digitali.

Intelligenza Artificiale, bias e telemetria

Forse ricorderete che mi sono già dedicata in passato al data bias in relazione alla telemetria e agli insights che mancano al 98% delle organizzazioni.

Nella maggior parte dei casi legati all’analisi della telemetria, i modelli vengono addestrati utilizzando dati che sono stati etichettati. La distorsione (bias) può essere introdotta nel sistema da (a) un’etichettatura errata dei dati, (b) dalla mancanza di una sufficiente varietà di dati in una categoria specifica o (c) dal metodo utilizzato per introdurre nuovi dati. Il motivo per cui l’etichettatura errata dei dati è problematica dovrebbe essere ovvio, perché può, in quantità sufficientemente elevate, portare a un’identificazione errata. Il problema della diversità dei dati è che quelli che non rientrano in un set di addestramento così ristretto saranno inevitabilmente classificati in modo errato.

Un classico esempio di ciò è ben rappresentato da un modello di Intelligenza Artificiale addestrato a riconoscere i carri armati rispetto ad altri tipi di trasporto. Si è scoperto che tutti i carri armati erano stati fotografati alla luce del giorno, mentre gli altri veicoli non lo erano. Di conseguenza, l’AI ha fatto un ottimo lavoro nel distinguere i carri armati dai non carri armati, ma in realtà stava correlando il giorno con la notte. La mancanza di diversità nel set di input ha quindi causato una correlazione distorta.

Anche se un’Intelligenza Artificiale operativa si basa sull’apprendimento per rinforzo, la mancanza di diversità dei dati rappresenta una problematica perché il sistema non dispone di tutte le variabili necessarie per determinare la mossa successiva.

Il motivo per cui un’Intelligenza Artificiale potrebbe non disporre di un insieme diversificato di dati o di tutte le variabili necessarie è, come avete capito, il data bias. Nello specifico, il data bias introdotto dal monitoraggio selettivo, in cui solo alcune telemetrie vengono ingerite per l’analisi. Ad esempio, l’impatto delle prestazioni del DNS sull’esperienza dell’utente è ben noto. Tuttavia, se un modello viene addestrato ad analizzare le prestazioni dell’applicazione senza la telemetria del DNS, potrebbe affermare che le prestazioni sono soddisfacenti anche se c’è un problema con il DNS, perché non ha idea che quest’ultimo sia in qualche modo collegato alle prestazioni end-to-end dell’applicazione. Se la mossa successiva è quella di avvisare qualcuno di un calo delle prestazioni, il sistema fallirà a causa di un errore nella selezione dei dati.

Non vi sorprenderà sapere che la nostra ricerca annuale abbia scoperto che oltre la metà di tutte le organizzazioni cita i “dati mancanti” (missing data) come una delle principali sfide per ottenere le informazioni di cui hanno bisogno.

Pertanto, anche se le aziende fossero tutte impegnate a sfruttare l’Intelligenza Artificiale per prendere decisioni operative, la sfida si presenterebbe. Senza un set di dati diversificato su cui addestrare un sistema di questo tipo, si insinua il potenziale di bias.

Una terza possibilità di distorsione risiede nei metodi utilizzati per introdurre i dati nel modello. L’esempio operativo più comune è l’utilizzo dei risultati di test sintetici per determinare le prestazioni medie di un’applicazione e poi utilizzare il modello risultante per analizzare il traffico reale. A seconda dell’ampiezza dei luoghi, dei dispositivi, della congestione della rete che costituiscono il set di dati dei test sintetici, le prestazioni perfettamente accettabili per gli utenti reali potrebbero essere identificate come un fallimento, o viceversa.

Il rischio per la digital transformation

Il rischio di tutto questo è rappresentato dall’erosione della fiducia verso la tecnologia come moltiplicatore di forza e abilitatore di scala ed efficienza necessarie alle organizzazioni per operare come un’azienda digitale. Perché se l’intelligenza artificiale continua a dare le risposte “sbagliate” o a suggerire le soluzioni “sbagliate”, nessuno più si fiderà.

Ecco perché l’osservabilità full-stack non è solo importante, ma rappresenta oggi una delle sei capacità tecniche chiave necessarie alle organizzazioni per passare alla terza fase della trasformazione digitale, ovvero quella del business assistito dall’intelligenza artificiale.

I dati mancanti, sia a causa di un monitoraggio selettivo sia per l’influenza delle metriche secondo le opinioni, possono potenzialmente agire sui modelli di Intelligenza Artificiale utilizzati per prendere decisioni operative.

Un’attenzione precisa verso le fonti e le tipologie di dati, unita a una strategia per i dati e l’osservabilità, contribuiranno a eliminare le distorsioni e a produrre risultati più accurati e affidabili.

di Lori MacVittie, Distinguished Engineer di F5