Frédéric Fourquet di MEGA International e Ernie Ostic di MANTA Software parlano di data governance e data lineage.

data-lineage

Il crescente volume di dati e le normative impongono alle organizzazioni di dimostrare alle autorità di regolamentazione quali dati contengono i loro sistemi e il percorso di questi dati. Non è più sufficiente conoscere e governare i dati, è necessario anche descrivere il data lineage, cioè il loro percorso con totale trasparenza. Cosa comporta questo requisito di tracciabilità in termini di strategie da mettere in atto? I due esperti Frédéric Fourquet, Product Marketing Manager Data Intelligence di MEGA International e Ernie Ostic, Senior Vice President of Products di MANTA Software,
forniscono alcune informazioni chiave.

Tracciare il complesso percorso dei dati con il data lineage automatico

Ernie Ostic: “Il data lineage è soprattutto un flusso di trasformazione. Permette di tracciare la genealogia tecnica dei dati, fornendo una panoramica precisa del percorso compiuto nei sistemi informatici. Questo approccio fornisce una visione completa del ciclo di vita dei dati, dalla loro raccolta al loro utilizzo, fino alla loro distruzione. Sebbene il data lineage sia necessario per i portafogli tecnologici complessi, si tratta anche di entrare in contatto con gli utenti (aziende) al di là degli aspetti tecnici, soprattutto durante la fase di scoperta dei dati e la modellazione dei processi sottostanti”.

Frédéric Fourquet: “La sfida del processo di lineage è capire cosa succede nel percorso dei dati: da dove vengono, dove vanno, chi li raccoglie, chi li usa, chi li riutilizza, ecc. I dati non sono statici; integrano processi e richiedono una visione approfondita e dinamica. Il percorso tecnico dei dati permette di sapere cosa è successo esattamente nel sistema e quale trattamento hanno subito i dati da quando sono stati creati: questo lavoro permette di approfondirne la conoscenza ripercorrendone la storia”.

Data governance: dimostrare l’origine e la destinazione dei dati

Ernie Ostic: “Con il crescente numero di normative sui dati, in particolare il GDPR in Europa, la sfida consiste nel dimostrare all’autorità di regolamentazione come ogni dato è stato ottenuto. La mancata osservanza di questo requisito può mettere a rischio le organizzazioni di qualsiasi settore. Poiché la gestione delle informazioni è un processo di trasformazione a lungo termine, è fondamentale essere in grado di tracciare la storia di ogni singolo dato, per seguirne l’origine, l’elaborazione, ecc. Non si tratta più solo di fornire i dati elaborati al legislatore, ma è necessario essere in grado di dimostrarne il percorso, ovvero la loro genealogia nel sistema. Data la crescita esponenziale del volume dei big data, è evidente che l’automazione è essenziale”.

Frédéric Fourquet: “Modellare il ciclo di vita dei dati in modo automatizzato permette di evitare enormi sforzi manuali, sforzi che potrebbero addirittura essere impossibili a fronte di un certo volume. L’automazione è essenziale, ad esempio, quando un’azienda ha diverse centinaia di categorie di dati critici da elaborare e solo 10-15 di queste possono essere elaborate manualmente in un anno. L’automazione del data lineage consente di dedicare più tempo all’aspetto della governance dei dati per garantirne la conformità normativa”.

Garantire la conformità con il data lineage: la verità è nel codice

Ernie Ostic: “L’automazione garantisce un adattamento dinamico nel tempo, a seconda delle diverse versioni, dei periodi di elaborazione, ecc. La verità dei dati è nel codice. È stata scritta da qualche parte nel processo tecnico e il data lineage è lì per sondarla, per avere una visione precisa. È il caso dei programmi COBOL, per esempio, i cui segreti devono essere svelati descrivendo il data lineage attraverso una scansione meticolosa dei sistemi sotto il prisma della loro evoluzione nel tempo. In questo modo, trovare il percorso dei dati può aiutare ad analizzare cosa fanno i programmi COBOL in un sistema”.

Frédéric Fourquet: “Il regolatore deve comprendere i dati a livello aziendale, ma anche a livello tecnico. Le parti interessate sono consapevoli del rischio, in particolare nel settore bancario, e conoscono la loro esposizione a multe per mancata conformità. Con il data lineage e la data governance, i processi sono descritti in modo oggettivo e tutti coloro che hanno elaborato i dati sono identificati. Non è più necessario indagare su chi ha realizzato il codice e su chi ha in mente il processo; tutto è immediatamente disponibile al Chief Data Officer e all’autorità di regolamentazione”.

Intelligenza artificiale: sfruttare le intuizioni dei dati

Frédéric Fourquet: “Mentre il Data Steward raccoglie e modella i dati per la catalogazione, il ruolo del Data Scientist è quello di progettare algoritmi che forniscono raccomandazioni per creare o migliorare un servizio o un prodotto. Questo è possibile, ad esempio, grazie alla modellazione del comportamento dei clienti sulla base dei dati forniti a monte. Pertanto, è interessante conoscere il ciclo di vita delle informazioni (lineage) fin dalla fase di progettazione dell’intelligenza artificiale per migliorare la selezione delle migliori fonti di dati e ottenere i migliori risultati possibili. È anche essenziale per la fase di produzione per sbloccare il pieno potenziale dell’intelligenza artificiale”.

Ernie Ostic: “Per avere un’intelligenza artificiale affidabile, è necessario disporre di dati stabili e di buona qualità. La capacità di rilevare i cambiamenti nel tempo e di impostare avvisi per argomento sarebbe di grande interesse. La cosa più importante è aiutare i Data Scientist lavorando sul ciclo di vita tecnico dei dati e apportando valore attraverso tag intelligenti, promemoria sulla qualità o su eventuali problematiche. Questa funzione di notifica è un passo ulteriore per essere in grado di rilevare i nuovi dati attraverso un lineage progressivo”.