Nel contesto di business attuale i dati sono sempre più protagonisti. Stiamo assistendo a un’accelerazione costante in termini sia quantitativi, sia qualitativi, nella frequenza in cui i dati cambiano e nella loro distribuzione geografica. Tale complessità si traduce in uno scenario fluido e dinamico che mette alla prova quelle architetture di integrazione dati basate sulla loro centralizzazione fisica e, spesso, la virtualizzazione dei dati è considerata la migliore strategia di tale integrazione.
“Un contesto così mutevole richiede un nuovo approccio: la virtualizzazione dei dati, che integra tutti i dati aziendali, comunque siano fatti e ovunque essi si trovino”, spiega Andrea Zinno, Sales Director & Data Evangelist di Denodo. “Si tratta di un modello logico che abilita un accesso centralizzato senza che si renda necessaria una copia preventiva dei dati, in quanto verrà reso disponibile solo quanto effettivamente richiesto”.
Tuttavia, benché le architetture logiche rappresentino una soluzione efficace, può essere ancora difficile identificarne le peculiarità e i reali vantaggi.
Denodo, realtà specializzata nella gestione dei dati, ha quindi identificato i 5 falsi miti sulla data virtualization più comuni, che possono generare confusione tra gli utenti meno esperti.
- Quando si adotta il Data Mesh, la virtualizzazione dei dati non serve
Premessa: il Data Mesh si fonda sull’idea di delegare la gestione dei dati a chi ne abbia la migliore conoscenza e competenza (i cosiddetti Data Domain), facendo in modo che i dati ritenuti di maggior interesse e valore siano poi condivisi (i Data Product) così che, complessivamente, l’azienda abbia a disposizione dati di elevata qualità, pertinenza e affidabilità.
Realtà: il Data Mesh è un paradigma organizzativo, che prevede nuovi ruoli e responsabilità e che, per essere attuato in modo efficiente ed efficace, richiede un sostegno tecnologico che possa rendere operativo il modello che lo ispira. La virtualizzazione dei dati è una soluzione perfettamente coerente con tale paradigma, in quanto consente ai singoli Data Domain di avere un’infrastruttura agile per la gestione dei dati interni e per creare ed esporre i Data Product. Inoltre, come collante tra quanto prodotto dai diversi Data Domain, la virtualizzazione dei dati consente di creare uno livello logico comune, che rappresenti il punto unico di accesso a tutto ciò che viene condiviso e il cui significato sia chiaramente rappresentato.
- Gli strumenti di BI e la virtualizzazione dei dati sono intercambiabili
Premessa: gli strumenti di Business Intelligence offrono funzionalità di Data Blending, permettono cioè di combinare, elaborare e analizzare dati provenienti da fonti diverse e di creare report tipicamente orientati al business. Inoltre, alcuni strumenti dispongono anche di funzioni aggiuntive per la modellazione dei dati.
Realtà: gli strumenti di BI consentono di combinare i dati e di creare report, ma tali funzionalità sono limitate e ogni strumento ha un proprio modello semantico all’interno del quale vengono combinati e modellati i dati. Ogni modello diventa quindi peculiare dello strumento che lo ha prodotto, rendendo estremamente complessa un’integrazione di respiro aziendale, indipendente dagli strumenti usati per la data analysis. Inoltre, modellando i dati all’interno di uno specifico strumento, cresce il rischio di avere modelli ripetuti, diversi ma simili, ciascuno privato di un dato strumento. La virtualizzazione dei dati, al contrario, è in grado di connettere, modellare e rendere i dati provenienti da ogni sorgente disponibili a chiunque (persone, ma anche strumenti o applicazioni e persone), secondo un modello semantico comune: è questo l’elemento portante di un Data Fabric di livello Enterprise, dove l’uso dei dati è reso semplice e non ambiguo e dove ogni Data Consumer è supportato da algoritmi che forniscono spunti di potenziale interesse.
- Con un Data Lake come punto unico di accesso ai dati, la virtualizzazione dei dati non è necessaria
Premessa: i Data Lake sono stati originariamente concepiti per esplorare e utilizzare dati, prevalentemente a fini analitici, che solitamente non vengono archiviati in fonti strutturate come Database o Data Warehouse. Oggi, però, le esigenze di conoscenza sono così avanzate da rendere necessaria la possibilità di avere a disposizione dati di qualsiasi tipo e per qualsiasi uso.
Realtà: l’idea di utilizzare un Data Lake come punto unico di accesso al patrimonio informativo si scontra con la complessità di definire e gestire le procedure di caricamento e allineamento dei dati. Inoltre, un Data Lake non è normalmente adatto a contenere dati fortemente strutturati e, in generale, benché sia intrinsecamente flessibile, difficilmente potrà essere in grado di garantire la stessa efficienza per ogni possibile tipologia di dato. È poi necessario considerare che, data la loro genesi, i Data Lake non prevedono nativamente la possibilità di fornire i dati secondo diversi protocolli di delivery, né dispongono di strumenti che consentano di ricercare le informazioni e di comprenderne chiaramente il significato e l’origine. La virtualizzazione dei dati, al contrario, consente di avere un unico punto di accesso ai dati dove questi siano descritti e documentati in un catalogo, senza che si renda necessaria una loro copia fisica in un solo punto. Tale approccio consente quindi di lasciare ogni dato nel “contenitore” che meglio di ogni altro li possa gestire.
- Chi utilizza strumenti ETL non ha bisogno della virtualizzazione dei dati
Premessa: le aziende possono utilizzare gli strumenti ETL per estrarre i dati da diverse sorgenti, trasformarli e quindi caricarli in un Database, in un Data Warehouse o, in generale, in ogni altro contenitore che possa assolvere a compiti specifici.
Realtà: le Pipeline ETL sono strutture poco resilienti, tanto che, se viene aggiunta una nuova sorgente di dati, spesso si preferisce costruire una nuova procedura di estrazione, trasformazione e caricamento, piuttosto che modificare una di quelle esistenti. Tale approccio pone seri problemi di gestione e manutenzione, poiché conduce a una forte duplicazione dei dati: da indagini campionarie, infatti, risulta che un’azienda dispone in media di dodici o più copie degli stessi dati sparse in diversi sistemi. Con la virtualizzazione dei dati, al contrario, i dati rimangono dove sono e vengono rappresentati solo in un livello virtuale, consentendo al contempo di avere una visione unitaria e coerente e di risparmiare tempo e risorse, con evidenti benefici anche in termini di Green Computing.
- La virtualizzazione dei dati comporta una perdita di controllo sui dati stessi
Premessa: la data virtualization consente a tutti i dipendenti di accedere ai dati aziendali in modo da poterli utilizzare in modo rapido, semplice e in autonomia, ma questo alimenta la convinzione che in tal modo si perda la visione d’insieme sull’utilizzo dei dati e su come questo possa influire, in termini di costi e prestazioni, sulle sorgenti dove i dati risiedono.
Realtà: Le piattaforme di virtualizzazione dei dati offrono un controllo puntuale su chi può usare cosa, inclusa la possibilità di mascherare e filtrare i dati restituiti sulla base del profilo di ciascun utente. Inoltre, sono disponibili numerose funzioni di controllo per regolare l’accesso ai sistemi sorgenti, in termini di durata, priorità o quantità di risultati restituiti. Infine, tutte le operazioni sui dati sono completamente tracciate e monitorate, così da poter fornire una fotografia completa e a fuoco nel caso sia necessario capire come l’intero ecosistema dati venga utilizzato o si debba reagire a qualche evento avverso.