PDA

Visualizza Versione Completa : Data Mining



ezzrssi_delete
14-05-12, 20:51
È l’insieme di tecnologie che consentono di dedurre o predire conoscenza a partire da grandi moli di dati. Come funziona e perché in Rete tutti fanno a no volgaritatti per seguire i tuoi movimenti



Il nome fa pensare alle profonde miniere scavate in Cina, a un processo di ricerca e scrematura certosine, a una raccolta di pepite sepolte in gigantesche montagne di robaccia inutile. In realtà, il data mining ha più a che fare con l’analisi d’insieme, con la ripartizione e successiva catalogazione dei dati accumulati, e non c’è una montagna di robaccia da cui va sviscerato qualcosa di prezioso, nel data mining ogni singolo dato è prezioso quanto gli altri.

È più giusto dire, dunque, che il data mining è un processo di estrazione di conoscenza da una grande quantità di dati. Questa conoscenza può avere un valore enorme, a seconda della quantità di dati a disposizione e del settore di riferimento. C’è chi sfrutta il data mining per estrarre potenziali conclusioni da una serie di dati biologici, metereologici, fisici o comunque scientifici. Ci sono poi imprenditori che impiegano queste tecnologie di estrazione per decidere quale approccio utilizzare nell’organizzazione delle proprie risorse umane. E naturalmente, ci sono i grandi colossi del Web, per i quali i dati utente stanno diventando sempre più preziosi, poiché consentono di individuare quali utenti siano bersagli perfetti per pubblicità mirate.

Mentre in Rete si diffonde a tamburo battente il dettame “Do Not Track” - uno slogan che sembra un comandamento - mentre un nuovo sondaggio rivela che il 70% degli utenti (statunitensi) si dice fortemente preoccupato che le aziende del Web condividano o vendano i loro dati, sull’Olimpo di Internet tutte le divinità ( Google compreso) si stanno attrezzando per dotare la propria utenza di un bottone che permetta di interrompere il tracciamento dei dati personali.

Ma come funziona il data mining, e perché i nostri dati fanno tanta gola?

Parte di un processo più esteso
In realtà, il data mining vero e proprio è solo uno degli step di un processo più ampio chiamato KDD ( Knowledge Discovery in Databases). Questo macroprocesso consiste nella riorganizzazione dei dati all’interno di un database affinché siano pronti per essere “estratti”. Una volta selezionato il tipo di dati su cui si vuole compiere l’analisi, una volta puliti i dati da ogni tipo di rumore o ridondanza, una volta scelto l’algoritmo di estrazione migliore per lo scopo si passa all’analisi vera e propria dei dati in cerca di pattern da cui si possa estrarre un’informazione sconosciuta o verificarne una prevista.


Come vengono estratte informazioni dai dati
Esistono diverse tecnologie utili a estrarre conoscenza da grandi moli di dati e sempre più spesso si tratta di sistemi automatizzati basati su algoritmi. A seconda dell’obbiettivo (e del settore di appartenenza dei dati) è possibile servirsi di una serie di diversi metodi algoritmici. Il metodo Classification si serve di uno schema preesistente in cui far rientrare i dati sottoposti al procedimento, può trattarsi di una lista di trend finanziari, per dire, o di una libreria di immagini geometriche.

Ogni dato viene analizzato e ricondotto a questo schema di classificazione. Il metodo del Clustering invece si serve dei dati per individuare all’interno del database determinate gategorie coerenti e omogenee, il caso più banale è quello del clustering di sottogruppi dei clienti di un determinato settore di mercato. Regression è un sistema di data mining predittivo, che consente di utilizzare i dati a disposizione per prevedere, ad esempio, come l’utente di un determinato servizio si comporterà con l’introduzione di nuove funzionalità. Altri tipi di algoritmo vengono utilizzati per individuare dati che si differenziano da un modello prestabilito e per stabilire associazioni tra dati simili forniti da utenti diversi. Quest’ultimo caso viene anche chiamato Association Learning, ed è alla base dei sistemi di raccomandazione che troviamo spesso nei social network (i libri consigliati da Anobii, ma anche i messaggi pubblicitari personalizzati inviati su Google e Facebook). Questa non è che una spiegazione semplificata dei processi di data mining, chi volesse studiare l’argomento in modo più tecnico, ecco uno studio approfondito e di facile comprensione.

A cosa servono le informazioni estratte?
Il tempo che passiamo in Rete potrebbe tranquillamente essere paragonato al tragitto di Pollicino nel bosco, la differenza è che noi utenti le briciole le perdiamo da tasche bucate rigonfie di pane, e dunque a nostra insaputa. Lasciamo tracce quando accediamo a un sito, quando apriamo un link, quando utilizziamo una social app, anche solo quando ci soffermiamo più del solito su una particolare immagine o pubblicità. Ogni giorno, la nostra attività in Rete lascia dietro di sè una scia di informazioni che fanno gola a decine di seguigi elettronici sguinzagliati nel Web. Come è facile intuire, gran parte di queste informazioni vengono sottoposte a data mining a fini commerciali, pubblicitari per la precisione. Dall’analisi dei dati utente è possibile reperire informazioni puntuali sulle loro tendenze di consumo e, dal confronto con il comportamento di altri utenti dai gusti simili nei confronti degli ad pubblicitari, valutare quali inserzioni possano avere maggiori chance di ottenere click. C’è poi chi si serve di tecnologie di data mining per identificare meglio certi tipi di frode (quelle che interessano le carte di credito, ad esempio) o per predire erorri di fabbricazione nell’industria manifatturiera (un sistema simile viene usato per i boeing). Sistemi KDD vengono comunemente usati per la gestione delle reti di telecomunicazioni e in qualunque ambito in cui sia richiesta l’organizzazione e l’interpretazione di una grande mole di dati, dal basket professionistico, alle social radio, alla ricerca scientifica. Tra le diverse applicazioni in ambito scientifico, è interessante menzionare SKICAT, un sistema utilizzato dagli astronomi per l’analisi e la classificazione di oggetti celesti a partire dall’enorme mole di immagini contenute nei database astronomici.

Fonte: wired