Google cloud mette a disposizione dei ricercatori anche BigQuery ML, per preparare modelli avanzati di machine learning

I data scientist del futuro? Si formano a Roma Tre

I dati hanno sempre un ruolo cruciale nella capacità di fare ricerca, studiare e contrastare le emergenze riguardanti la salute pubblica, soprattutto se ci si trova ad affrontare una crisi di carattere globale. L’accesso ai set di dati – e agli strumenti in grado di analizzare questi dati su larga scala grazie al cloud – è sempre più essenziale per il processo di ricerca e risulta particolarmente necessario nella risposta globale al nuovo coronavirus (COVID-19). Per aiutare ricercatori, data scientist e analisti nella lotta contro il COVID-19, stiamo creando un archivio di set di dati pubblici, come il Johns Hopkins Center for Systems Science and Engineering (JHU CSSE), il Global Health Data della Banca Mondiale e i dati di OpenStreetMap, liberamente accessibile e consultabile attraverso il nostro COVID-19 Public Dataset Program. I ricercatori possono anche utilizzare BigQuery ML per preparare modelli avanzati di machine learning con questi dati direttamente all’interno di BigQuery, senza costi aggiuntivi.

“Rendere i dati legati a COVID-19 aperti e disponibili in BigQuery sarà un vantaggio per i ricercatori e le analisi sul campo, afferma Sam Skillman, head of engineering at Descartes Labs. In particolare, avere query gratuite consentirà una maggiore partecipazione, e la possibilità di condividere rapidamente risultati e analisi con i colleghi e con le persone faciliterà la nostra comprensione di come si sta diffondendo il virus”.

Questi set di dati rimuovono le barriere e forniscono accesso a informazioni cruciali in modo rapido e semplice, eliminando la necessità di cercare e caricare file di dati di grandi dimensioni. Dall’interno di Google Cloud Console, i ricercatori possono accedere ai set di dati, così come alla descrizione dei dati e a sample query per permettere di fare ricerche avanzate. Tutti i dati inclusi nel programma saranno pubblici e disponibili gratuitamente. Il programma rimarrà in vigore fino al 15 settembre 2020.

“Lo sviluppo di modelli basati sui dati per analizzare la diffusione di questa malattia infettiva è fondamentale, ha affermato Matteo Chinazzi, ricercatore associato presso la Northeastern University. Il nostro team sta lavorando intensamente per creare modelli che ci aiutino a comprendere meglio la diffusione di COVID-19. Rendendo i dati su COVID-19 aperti e disponibili in BigQuery, i ricercatori e le autorità sanitarie saranno in grado di comprendere, studiare e analizzare meglio l’impatto di questa malattia”.

I contenuti di questi set di dati sono disponibili pubblicamente per il solo scopo didattico e di ricerca. Nel COVID-19 Public Dataset Program non stiamo inserendo o gestendo informazioni personali identificabili (PII) né informazioni private sulla salute (PHI). Google segue pratiche e norme specifiche per garantire che i dati vengano gestiti in conformità con le norme generalmente accettate sulla privacy e sulla sicurezza dei dati dei pazienti. Insieme al team di Google Cloud, ci auguriamo sinceramente che COVID-19 Public Dataset Program possa consentire una ricerca migliore e più rapida per combattere la diffusione di questa malattia. È possibile cominciare oggi stesso.

A cura di Chad W. Jennings, BigQuery Product Manager and Shane Glass, Developer Advocate