
Il cybercrime diventerà accessibile a tutte le persone grazie a modelli di Intelligenza Artificiale “abliterated”, versioni manipolate o riaddestrate di modelli linguistici generativi a cui sono stati rimossi i filtri di sicurezza. È questo il tema al centro del nuovo studio pubblicato dal centro di innovazione digitale Cefriel “AI senza freni: come i modelli abliterated stanno democratizzando il cybercrime”, a cura di Enrico Frumento, Cybersecurity Research Lead di Cefriel.
Il documento analizza come l’installazione in locale di Large e Small Language Model e la rimozione intenzionale dei filtri di sicurezza interni a determinati modelli di Intelligenza Artificiale stia creando una nuova classe di strumenti “senza etica”, in grado di rispondere senza limiti a qualsiasi richiesta, anche potenzialmente criminale.
“Oggi chiunque – spiega l’autore del paper Enrico Frumento – anche senza competenze specialistiche informatiche può disporre di un modello potente e privo di barriere etiche, in grado di generare codice malevolo, campagne di phishing o persino istruzioni per la costruzione di ordigni.”
Il fenomeno delle Dark-AI è già noto da qualche tempo: versioni di AI addestrate dai gruppi criminali e offerte sul dark-web per creare malware, campagne di phishing, tutorial su argomenti delicati di qualsiasi natura. Le ultime evoluzioni descritte nel white paper raccontano come questo oggi sia diventato “democratico”: non serve conoscere i dettagli del dark web per iniziare a usare modelli “dark”. Tra i fattori che alimentano l’escalation del cybercrime c’è la diffusione dell’Intelligenza Artificiale generativa e, in particolare, la diffusione di modelli di Intelligenza Artificiale “abliterated” o “uncensored”, versioni manipolate o riaddestrate di modelli linguistici generativi.
Lo studio prende spunto da un esperimento concreto: l’autore ha confrontato il comportamento di un modello “integro”, progettato per rigettare richieste considerate eticamente non accettabili, con quello di un modello abliterated, modificato per eliminare il cosiddetto refusal mechanism, ovvero la capacità del sistema di dire “no”. Il risultato è netto: mentre l’AI generativa accessibile tramite servizi commerciali gratuiti o a pagamento mantiene i suoi limiti di sicurezza anche di fronte a tentativi di manipolazione, il modello abliterated – installato su PC o su smartphone – cede immediatamente a semplici tecniche di persuasione, fornendo istruzioni dettagliate su attività illegali.
Con queste trasformazioni, la disinformazione entra in una nuova fase, caratterizzata da:
- decentralizzazione e democratizzazione dell’uso malevolo, che rende i sistemi di rilevamento tradizionali meno efficaci;
- semplificazione e distorsione dei contenuti, con rischi per cittadine e cittadini, professionisti e policymaker;
- difficoltà crescente nel discernere la verità, poiché i contenuti generati da AI risultano sempre più difficili da distinguere rispetto a quelli generati da persone.
Per Frumento, la sfida non è solo tecnica o legale, ma antropologica: “Non possiamo più contare solo su divieti o regolamenti. Serve una risposta sistemica che combini educazione digitale, cooperazione internazionale e lo sviluppo di contromisure tecnologiche accessibili a tutti. La democratizzazione dell’AI deve andare di pari passo con quella della sicurezza.”
L’Europa ha risposto alle sfide della disinformazione alimentata dall’AI con un framework normativo multilivello. Tuttavia, l’implementazione e l’efficacia di queste regolamentazioni presentano lacune strutturali quando sono applicate ai modelli abliterated, come la giurisdizione limitata (i modelli abliterated operano spesso al di fuori delle giurisdizioni europee), l’uso offline che rende la tracciabilità impossibile e la mancanza di un soggetto chiaramente identificabile responsabile per un uso improprio dell’Intelligenza Artificiale generativa.