We use cookies in this website. Read about them in our privacy policy. To disable them, configure your browser properly. If you keep using this website, you are accepting those.
Usiamo i cookie su questo sito. Leggi le nostre Politiche sulla Privacy. Per disattivarli, imposta correttamente il browser. Se si utilizza il sito si accetta il posizionamento dei cookies.
OK



Big Data e Data Scientist – Cosa sono e cosa non sono

(Prima parte)

Rosario

Sicuramente è il termine più utilizzato nel mondo IT in questo periodo, identifica un mercato dal potenziale economico enorme, crea nuove opportunità lavorative che alcuni guru definiscono come “la professione più sexy dei prossimi anni”, ma cosa sono davvero ed in che condizioni si può effettivamente parlare di Big Data non è ancora chiaro a molti. Proviamo a semplificare la situazione. La definizione che troverete digitando Big Data su un motore di ricerca sarà basata sul modello delle tre “V” e reciterà qualcosa del tipo “locuzione utilizzata per descrivere una estesa raccolta dati in termini di Volume, Velocità e Varietà che richiede particolari tecnologie e metodi analitici per l'estrazione delle informazioni contenute e del relativo valore”. In realtà negli ultimi anni si è aggiunta una quarta “V” ossia la Veridicità cioè la valutazione sulla inconsistenza dei dati. Alla luce di queste definizioni è possibile comprendere che stiamo parlando di trarre informazioni che provengono dall'analisi di tantissimi dati e da differenti fonti, non omogenei tra loro, che cambiano “forma” con una frequenza elevatissima.

È facile intuire la possibilità di aggregare dati che non hanno tra loro congruenza per lo studio che il Data Scientist (così viene definito il professionista che opera in questo contesto) sta svolgendo.
Gli studi effettivamente svolti su un campione così complesso sono tanti, ma la maggior parte di questi riguarda il settore della ricerca scientifica in vari ambiti, ad esempio la fisica (il CERN con gli esperimenti al Large Hadron Collider), l'astronomia (la NASA deve gestire milioni di osservazioni giornaliere da diversi telescopi) e la biologia (decodifica del genoma). 

A potersi vantare del reale utilizzo dei Big Data nel settore privato, almeno fino ad ora, sono prevalentemente le big company, aziende della dimensione di Google, Facebook, Twitter, Amazon, Microsoft, etc. Spesso, il termine “Big Data” viene associato ad un mix di operazioni più tradizionali, ma comunque altrettanto efficaci, quali Business Intelligence e tecniche di statistica utilizzate per cercare correlazioni tra più variabili e singoli individui (meglio note come operazioni di Data Mining) applicate a volumi di dati sempre maggiori. 

Con il termine Business Intelligence viene indicata una serie di operazioni che acquisendo e manipolando dati solitamente presenti su database aziendale, fornisce report, statistiche, indicatori o grafici per valutare e misurare le performance aziendali utilizzando la statistica descrittiva. 

I Big Data utilizzano invece la statistica inferenziale ed i concetti di identificazione di sistemi non lineari, per dedurre leggi (regressioni, relazioni non lineari, ed effetti causali) da grandi insiemi di dati e per rivelare i rapporti, le dipendenze per effettuare previsioni di risultati e comportamenti. In questo caso i dati non sono solo quelli presenti all'interno del database aziendale, ma stiamo parlando di dati che provengono dal web, dalle mail, dai social, dai blog, quindi dati che non hanno un formato standard.
Per immagazzinare questa mole di dati, molto differenti tra loro, è necessario non far più riferimento ai classici database relazionali che vengono utilizzati da quasi tutti i software aziendali, ma è necessario utilizzare dei database non relazionali che seguono le logiche del movimento NoSQL (Not Only SQL). Questo confluire di dati grezzi da lavorare è stato battezzato da James Dixon, CTO della società Pentaho, come “Data Lake”. 
Ed è qui che si gioca la vera sfida dei dei Big Data, qui che il lavoro diventa il più sexy dei prossimi anni. Perché se il Data Scientist non è abile nel prevedere quello che i dati hanno da dire, a capire il vero valore che questi esprimono, ecco che ha trasformato il “Data Lake” in quello che Nick Heudecker, research director presso Gartner, ha definito un “Data Swamp” letteralmente una palude di dati.