Nov
20th
left
right

Data mining e data analitics “Nuove frontiere per prevedere il futuro”

Per data mining[1] e data analitics[2] s’intende un insieme di tecniche computazionali. Si tratta di tecniche utilizzate per individuare pattern[3] o predire valori futuri analizzando grandi quantità di dati. Queste tecniche funzionano in modo automatico o semiautomatico. In altri termini, i dati vengono elaborati per mezzo di algoritmi cosicché le informazioni ottenute si trasformano in conoscenza. Infatti, questa analisi e la successiva elaborazione hanno come obiettivo quello di ricercare eventuali correlazioni, di costruire un modello o di fare delle classificazioni e delle previsioni.

Come noto, la realtà, oggi, è sempre più complessa ed è composta da un’infinità di variabili che rende ancor più difficile prendere delle decisioni e fare previsioni, soprattutto sul futuro.[4] Allora, in un mondo ormai globalizzato, per soppesare le diverse strategie è necessario essere guidati e supportati da dati (decision data driven).

Ma i dati, da soli, non bastano, anzi, potrebbero addirittura essere ingannevoli. Pertanto, è opportuno costruire un modello del processo o del fenomeno che si vuole studiare. Successivamente, tuttavia, il modello deve essere validato, testato e calibrato[5] affinché le decisioni che vengono prese siano quanto più possibile affidabili.

Secondo Andreas Weigend[6], una metafora per rappresentare le grandi moli di dati che vengono prodotte in un minuto nel mondo è quella del petrolio grezzo (intervista su Business Week[7]), perché come il petrolio va raffinato per poterne estrarre l’energia, così debbono essere analizzati i dati per poterne utilizzare l’informazione in essi contenuta. A volte i dati sono troppi (Big Data) ed è difficile trarne un modello, altre volte, invece, le informazioni sono incomplete e, quindi, è difficile trarne relazioni causa/effetto per poterlo costruire.

Tutto questo significa che bisogna quantificate nel modo più corretto i vari scenari possibili assegnando una probabilità agli eventi incerti[8]. Infatti in presenza di incertezze entrano in gioco le difficoltà umane come i bias psicologici e neurologici e le difficoltà nel quantificare l’incertezza [decision making]. Attualmente una soluzione abbastanza affidabile per affrontare le situazioni di incertezza è l’approccio bayesiano che permette di utilizzare in modo coerente e consistente tutte le informazioni disponibili per arricchire e aggiornare le nostre valutazioni di probabilità. Questo approccio permette di assegnare la probabilità ad eventi mai visti in precedenza ed aiuta nei processi di inferenza. Inoltre è possibile aggiornare le valutazioni alla luce di nuove informazioni, in modo additivo, anche in situazioni molto complesse utilizzando le reti bayesiane. Alla fine il modello deve essere in grado di integrare la conoscenza del processo/fenomeno che genera i dati. Si tratta, quindi, di mettere a fuoco i parametri giusti affinché producano delle previsioni affidabili ed in modo tale che gli update siano congruenti con l’evolversi del processo/fenomeno stesso.

Come fare big data analysis e ottenere valore per le aziende

 


[1] Il data mining è l’insieme di tecniche e metodologie che hanno per oggetto l’estrazione di una informazione o di una conoscenza a partire da grandi quantità di dati e, conseguentemente, l’utilizzo scientifico, industriale o operativo di questa informazione.(wiki)

[2] Il data analitics è l’arte di esplorare i fatti da dati specifici per rispondere a domande specifiche, cioè esiste un framework di ipotesi di prova per l’analisi dei dati. Le tecniche utilizzate in analisi sono uguali a quelle utilizzate nell’analisi aziendale e nella business intelligence.

[3] Indica una struttura, un modello, o, in generale, una rappresentazione sintetica dei dati.

[4] E’ difficile fare previsioni soprattutto sul futuro (Niels Bohr)

[5] http://tylervigen.com/spurious-correlations

[6] ex Chief Data Scientist di Amazon

[7] http://dataconomy.com/2014/03/big-data-is-like-crude-oil-4/

[8] La scienza è fatta di dati, come una casa di pietre. Ma un ammasso di dati non è scienza più di quanto un mucchio di pietre sia una casa. (Henri Poincare)

Lascia un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *