data mining

Data mining, machine learning e big data: cosa sono?

Su questo sito abbiamo parlato ampiamente di intelligenza artificiale, reti neurali, robot e tecnologie volte a migliorare e rendere più veloce la maggior parte delle attività svolte dall’uomo in ambito lavorativo. Abbiamo nominato anche Big Data e Data Mining, due concetti fondamentali se si vuole comprendere al meglio come funziona l’intelligenza artificiale. Andiamo quindi ad approfondirli e a spiegare in che modo influenzano ed influenzeranno la nostra vita e la nostra esperienza online.


 

Data Mining. La traduzione italiana di questo termine è “estrazione di dati”, cosa che ci fa già comprendere lo scopo di questo procedimento. Si tratta infatti di tecniche automatiche o semi-automatiche che funzionano più o meno come la statistica; quest’ultima, però, elabora informazioni generali relative ad un grande numero di persone, mentre il data mining cerca correlazioni tra più variabili relative alle singole persone. Ad esempio, come abbiamo accennato in un altro articolo, molte compagnie utilizzano tecniche di data mining unite ad altre di cui parleremo a breve per prevedere il comportamento di un cliente per avere un’idea di quanto spenderà in futuro, basandosi sulle sue azioni precedenti in un determinato arco di tempo.
Il data mining ha, perciò, due funzioni fondamentali; quella di estrazione e quella di analisi. Nella prima, le tecniche utilizzate estraggono informazioni implicite e nascoste per poterle rendere utilizzabili; nella seconda, si esplorano e si analizzano questi dati in maniera automatica o semi-automatica per scoprire degli schemi e delle regolarità nei comportamenti analizzati. Questi schemi vengono detti pattern.
Lo sviluppo del data mining è stato favorito nel corso del tempo da tre fattori principali, ovvero il grande accumulo di dati in formato elettronico, il costo sempre minore di dispositivi di storage e lo sviluppo di nuove tecniche di analisi, come l’apprendimento automatico.

apprendimento_auto

Apprendimento automatico. Andiamo quindi a ricollegarci ad un argomento che abbiamo precedentemente affrontato, ovvero l’apprendimento automatico, conosciuto anche come machine learning. Si tratta di una branca dell’intelligenza artificiale che comprende una serie di metodi utilizzati per migliorare la performance di un algoritmo nell’identificare pattern nei dati che gli vengono messi a disposizione. Alcuni di questi metodi comprendono le reti neurali artificiali, il data mining, il riconoscimento di pattern e l’elaborazione delle immagini.

Ci sono due approcci principali con i quali si applica l’apprendimento automatico; il primo è quello della rete neurale, ovvero lo sviluppo di macchine per impiego generale che apprendono svariati compiti in seguito ad una routine basata su ricompensa e punizione, ovvero l’apprendimento per rinforzo.
Il secondo approccio è più specifico e anche più efficace, ma permette di programmare la macchina per attività specifiche e non per impieghi generali. Questa procedura, che consiste nel riprodurre l’equivalente di una rete altamente organizzata, richiede una costante supervisione e riprogrammazione per ogni nuova applicazione.
Tom M. Mitchell, autore del libro “Machine Learning”, ha fornito una definizione dell’apprendimento automatico che riassume tutto quello che c’è da sapere: “Si dice che un programma apprende dall’esperienza E con riferimento ad alcune classi di compiti T e con misurazione della performance P, se le sue performance nel compito T, come misurato da P, migliorano con l’esperienza E”.
Spiegandolo in maniera estremamente semplice, un programma apprende se, dopo un compito svolto, c’è un miglioramento delle prestazioni.
Lo scopo di queste tecniche è quello di portare la macchina a compiere ragionamenti intuitivi, come possiamo fare noi esseri umani, per portare a termine i compiti che le vengono assegnati. Questi compiti vengono classificati in tre categorie principali, dette anche paradigmi: apprendimento supervisionato, apprendimento non supervisionato e apprendimento per rinforzo.
Nell’apprendimento supervisionato vengono forniti al modello degli esempi nella forma di input e rispettivi output, e lo scopo è quello di estrarre una regola generale che associ l’input all’output corretto.
Nell’apprendimento non supervisionato, gli input non vengono etichettati in alcun modo e il modello ha lo scopo di trovare una struttura in essi.
Nell’apprendimento per rinforzo, il modello interagisce con l’ambiente tentando di risolvere un obiettivo tramite una sorta di insegnante che gli comunica esclusivamente se ha raggiunto il suo obiettivo.

Spesso, l’apprendimento automatico e il data mining vengono utilizzati insieme; il primo si concentra sulla previsione basata su proprietà note apprese dai dati, il secondo si focalizza sull’analisi esplorativa dei dati e sulla scoperta di proprietà prima sconosciute nei dati.
Il data mining sfrutta perciò i risultati dell’apprendimento automatico, con obiettivi differenti; la differenza tra le due tecniche è che nell’apprendimento automatico le prestazioni sono valutate in base all’abilità di riprodurre risultati che già conosciamo, mentre nel data mining lo scopo del procedimento è la scoperta di nuovi dati di cui non eravamo precedentemente in possesso.

Big Data. Quali sono, però, questi dati che vengono analizzati, appresi e riprodotti? La risposta è semplice: tutti. Con il termine big data si indicano raccolte di dati così estese in termini di volume, BIG_DATAvelocità e varietà da richiedere specifiche tecnologie e metodi per estrapolarne informazioni creati appositamente.
Il termine indica anche la capacità della scienza dei dati di estrapolare, analizzare e mettere in relazione una mole immensa di dati molto diversi tra loro, con lo scopo di scoprire eventuali legami e prevedere quelli futuri.
La mole dei dati, quando si parla di big data, è nell’ordine di miliardi di terabyte, ovvero gli zettabyte. Per avere un’idea della quantità di dati coinvolta, vi basti pensare che un solo zettabyte corrisponde a circa 180 milioni di volte le informazioni conservate nella Biblioteca del Congresso di Washington.
Non esiste una dimensione di riferimento, poiché le macchine sono sempre più veloci e la quantità di dati aumenta ancora più velocemente.
L’analista Doug Laney ha definito un modello di crescita incentrato su 3V, ovvero Volume, Varietà e Velocità; con il tempo ne sono state aggiunte altre, ovvero Veridicità e Valore.
Il Volume si riferisce alla quantità dei dati generati ogni secondo da svariate sorgenti come ad esempio sensori, eventi, e-mail e social media.
La Varietà si riferisce alla differente tipologia dei dati, siano essi strutturati, non strutturati o semi-strutturati.
La Velocità si riferisce alla velocità con cui vengono generati nuovi dati e quella con cui questi dati devono venire computati per effettuare analisi su di essi.
La Veridicità considera che la varietà e la velocità dei dati non garantiscono che i dati alla base delle analisi siano accurati e che, perciò, neanche il risultato lo sia. È quindi fondamentale assegnare un indice di veridicità ai dati su cui si basano le analisi, perché siano affidabili.
Il Valore si riferisce alla possibilità di trasformare i dati in valore; i progetti big data necessitano importanti investimenti, ed è quindi necessario essere sicuri che la raccolta dei dati e loro analisi porti un valore effettivo a chi ne usufruisce.

Oltre un terzo della popolazione mondiale è connessa ad internet, con scopi e modalità diverse: transazioni finanziarie, acquisti online, video, musica, e-books, social network, eccetera. La rete è inoltre ritrovo di attività illecite come la vendita di sostanze stupefacenti, ma anche quello di movimenti pacifisti; nel bene o nel male, tutti possono trovare nell’Internet un superamento delle barriere che impedivano le loro attività.
Vista la mole di dati e la loro eterogeneità, è impossibile un’analisi sulle dimensioni e sulla topografia della rete; anche fosse possibile, potrebbe essere solo un’altra macchina ad effettuarla.
Nella rete come la conosciamo noi oggi possiamo quindi non solo attingere ad una quantità immensa di informazioni, ma anche rilasciarne altrettante – che lo vogliamo o meno. L’immissione di dati può essere sia consapevole che inconsapevole; gli algoritmi di acquisizione reperiscono incessantemente questi dati anche ogni volta che accediamo a Facebook o facciamo un acquisto online, estraendo gli elementi utili per i loro committenti. Questi possono essere aziende commerciali, corporation, istituti bancari, di statistica, di ricerca, di sviluppo, aziende mediche e farmaceutiche, servizi d’Intelligence e molti altri.

 

 

Un documento della società Cisco prevede il raggiungimento di 134 exabytes di dati su reti mobili all’anno; si tratta di 134 volte il volume di traffico che sviluppava un indirizzo IP nel 2000. Dall’inizio del nuovo millennio ad ora sono intervenuti alcuni fattori che hanno modificato la rete; basti considerare la crescita della connessioni ad internet tramite apparati mobili e quella delle stesse macchine connesse tra loro, come ad esempio il GPS. Anche la velocità della connessione delle reti mobili e l’aumento dello scambio di contenuti multimediali ha contribuito all’espansione dei dati disponibili in rete.

Torniamo quindi a parlare di data mining; le tecniche che questo utilizza permettono di scavare all’interno della rete, individuando pattern a seconda del contesto in cui si sta operando ed individuando regolarità all’interno di un grandissimo insieme di dati.
Questi pattern diventeranno a loro volta il punto di partenza dal quale formulare nuove ipotesi e previsioni statistiche.
Nell’attività di data mining, il machine learning sollecita l’evoluzione della scienza, della tecnologia e del business, ma anche della politica e delle strategie militari, trasformando i dati delle ricerche su svariati campi in informazioni e nuove conoscenze.
Al giorno d’oggi, le aziende conoscono i gusti, i comportamenti e le propensioni dei clienti, e in politica come in molti altri campi vince chi si fa la miglior pubblicità online.
Quando vogliamo sapere i titoli dei libri più letti nel mondo, ce li suggerisce Amazon, in base al suo algoritmo di apprendimento. Gli algoritmi della NSA decidono chi potrebbe costituire una minaccia terroristica, e le notizie che riguardano il coinvolgimento di nuovi algoritmi di machine learning per Facebook, Apple e altri giganti della tecnologia sono all’ordine del giorno.
Grazie alle tecniche che abbiamo nominato in questo articolo, i siti web che visitiamo ogni giorno “spiano” le nostre mosse e le tracce che, consapevolmente o meno, lasciamo dietro di noi per poterci poi offrire suggerimenti su cose che potremmo voler comprare, vedere, ascoltare, leggere e quant’altro.
Se, da una parte, questa tecnologia può risultare quasi inquietante, dall’altra serve anche comprendere che si tratta di innovazioni basate proprio sulle nostre tendenze e sullo sviluppo sempre più repentino delle tecnologie che desideriamo ed usiamo noi in primis; i big data, il data mining e tutte le altre tecniche nominate rappresentano semplicemente l’altra faccia della medaglia.

 

Condividi l'articolo - scegli la piattaforma