Cosa sono i Big Data ma soprattutto a cosa servono?

_{*Slot 95 – opera degli artisti Giovanni e Aimone Romizi.}

Big data, come prevedere il prevedibile migliorando la customer experience. E’ questa la mission possible del grande ufficio IT del Villaggio Globale sito in via abc.xyz, mentre noi nel frattempo stiamo sperimentando inedite forme d’interazione sociale non più legate alle sole relazioni fisiche, personali, ma affidate alla grande rete internet.

La città, il villaggio fisico, dove ognuno di noi quotidianamente vive ci chiede di pagare le tasse così da poter godere dei servizi resi alla comunità.

Analogamente anche il Villaggio Globale chiede ai suoi cittadini il pagamento di una tassa da corrispondere con una moneta il cui nome è Dati, meglio se pagati in tagli di Metadati.

Nel Villaggio Globale è difficile evadere le tasse, anche se per viverci non c’è bisogno del codice fiscale dato che l’ufficio anagrafe di questa comunità non è normalmente interessato al nome di un singolo individuo.

In questo “luogo” c’è molto più interesse per le finestre che per i codici fiscali. Le finestre sono gli schermi dei devices (PC, tablet, smatphone) che gli abitanti del Villaggio utilizzano per interagire con il mondo (virtuale) che li circonda.

Prevedere il prevedibile migliorando la customer experience, così che ogni abitante del Villaggio possa ricevere sul davanzale della propria finestra il messaggio che stava aspettando… anche se non sapeva che lo stava aspettando.

Ogni esperto di marketing & communication che giunge all’ermo colle da dove è possibile rimirare le infinite finestre del Villaggio Globale si emoziona nel profondo della sua anima ed i versi de L’infinito di Giacomo Leopardi risuonano nella sua mente: “Così tra questa immensità s’annega il pensier mio: e il naufragar m’è dolce in questo mare” di Metadati.

Ecco, per introdurre il paradigma “big data” due sono le parole da tenere bene a mente: immensità e naufragar

Immensità; una collezione di dati qualificabile come “big data” è probabile che sia molto grande, tendente all’immenso… ma non è detto che debba essere obbligatoriamente sempre così. In merito alla quantità di dati necessaria per poter parlare di big data, ad essere ortodossi alla lettera con le definizioni, in Italia/Europa non credo che esistano molte organizzazioni in grado di smuovere exabyte/zettabyte di dati e quindi nel nostro bel paese questa materia non dovrebbe trovare applicazione pratica.

In effetti non è così.

A mio parere il cuore della questione “big data” sta più nel metodo che nelle quantità. Il metodo sono gli algoritmi di data mining. Insegnare alle aziende a ragionare per regole associative, addestrandole a cercare le correlazioni con l’obiettivo di estrarre dai dati delle vere informazioni, vuol dire far crescere le connessioni fra i neuroni che stanno dentro le capocce. Ciò è un bene per il raggiungimento del fine di ogni impresa. Quindi, anche se uno non possiede un autotreno di chiavette USB con dentro uno zettabyte di dati, può comunque fare del buon data mining… e se questo lo vogliamo ribattezzare “big data”, va bene così.

Naufragar; si può affogare in un bicchiere d’ acqua, figuriamoci nell’immenso mare dei big data. Trattare una collezione di dati di tipo eterogeneo richiede tecniche di elaborazione diverse rispetto a quelle normalmente utilizzate per costruire analytics basati su schemi di dati di tipo relazionale.
La grande differenza fra una collezione di dati inquadrati in forma di tabelle relazionali ed un big data non è la quantità dei dati ma la densità di informazioni che dai dati è possibile estrarre.

I dati presenti in un database relazionale sono in genere organizzati in modo da facilitare l’estrazione di un’ alta quantità di informazioni. Ad esempio il set di tabelle che contengono i movimenti di vendita di un’azienda è progettato già in origine per facilitare l’estrazione delle informazioni di sintesi sull’andamento commerciale.

Con i big data le cose sono ben diverse. Non è nota a priori la quantità di informazioni che sarà possibile estrarre dai raw data. In questo caso ci troviamo nel mondo degli oggetti e delle metodologie OOA. La terra promessa del knowledge management, delle inferenze e degli algoritmi di elaborazione maturati grazie allo sviluppo dei sistemi di forecast.

Il risultato finale del processo di ragionamento automatico, la deduzione, è il metallo più prezioso che è possibile estrarre dalla miniera dei big data. Ogni analista di big data dovrebbe tenere sempre a porta di mano una copia della Classification Theory, da rileggere per trovare ispirazione quando la strada inizia ad andare in salita dura; perché “vedere” gli oggetti è indispensabile per poterli elaborare ricavandone le giuste deduzioni.
Non solo nella descrizione matematica sta la soluzione del big problema, le tecniche dell’inferenza statistica devono essere implementate in congiunzione con le tecniche dei sistemi esperti.

Come non solo presso via abc.xyz è possibile sperimentare i metodi di elaborazione adeguati per i big data. Il Villaggio Globale offre immensi campi estrattivi costituiti da dati legalmente immagazzinati nei grandi storage dei social network, dei motori di ricerca, dei siti di e-commerce.
Alcuni magazzini di dati sono accessibili gratuitamente, altri richiedono dei costi di “estrazione”, otre all’utilizzo di specifiche API d’interfacciamento.

Inoltre, per iniziare ad esplorare il mondo del supercalcolo non è necessario avere in cantina un cluster di server, chi vuole provare il “metodo big data” può attivare delle risorse Amazon Web Services, installano in EC2 (Elastic Compute Cloud ) un engine come Apache Spark, un parser come Tika e mettersi alla prova miscelando gli ingredienti necessari: vision + idee.

Personalmente credo che il “metodo big data” stia muovendo i primi passi e le applicazioni pratiche che ne potranno derivare sono in gran parte da scoprire. Per il momento i soldi che fanno muovere la giostra dei veri big data arrivano dall’ advertising.

Basta guardare nel sito abc.xyz dove si trovano i risultati del primo quarto 2016 di Alphabet (alias Google). Il 90% dei ricavi della grande G provengono dalla pubblicità. Per questa ragione oggi molti analisti e software engineer sono impegnati a sviluppare algoritmi di online analytics con lo scopo di aumentare l’efficacia dei sistemi di web advertising come il remarketing (alias retargeting).

Ad ognuno di noi sarà capitato di vedere comparire sul davanzale della finestra, pardon, volevo dire sullo schermo del computer, una pubblicità di prodotti/servizi in grado di richiamare particolarmente l’attenzione.
Come noto ciò non è un miracolo. Trattasi semplicemente della trasposizione in algoritmo del vecchio detto: “dimmi cosa leggi e ti dirò chi sei” oggi riformulato in: “vedendo dove navighi ti potrò dire cosa ti occorre”.

Il meccanismo alla base del remarketing è concettualmente semplice. Visitando un sito appartenente ad un determinato network di advertising un cookie viene automaticamente scaricato nella cache del nostro device.
Dal momento dell’istallazione del cookie ogni volta che con il browser (o con una app) facciamo delle ricerche, visitiamo un sito di e-commerce, etc… un cluster di servers attiva gli algoritmi necessari per la profilazione degli interessi rappresentati da quel preciso cookie.

In sintesi il cookie è una specie di intermediario anonimo fra noi ed il “big data” che lo controlla.

Così, ogni volta che visitiamo una pagina di un sito che presenta dei contenuti di tipo advertising, il sito riconosce il cookie installato nel nostro device, ne estrae la stringa hash identificativa, ed entro pochi millisecondi il cluster big data elabora gli algoritmi di deduzione per determinare quale, fra i possibili messaggi pubblicitari disponibili, risulti essere quello più indicato per il profilo di consumatore rappresentato dal cookie che lo sta interrogando.

Dal punto di vista tecnico la cosa notevole è che tutto questo avviene quasi istantaneamente, mentre nello stesso momento nel Villaggio Globale stanno facendo ricerche e shopping altri miliardi di possibili consumatori.

Potrà forse sorgere una domanda; e la nostra privacy?

Fatte salve possibili “ingerenze” compiute da chi si occupa di attività di intelligence, la tecnica dell’advertising basato sul remarketing è del tutto innocua per i naviganti. Il cookie che contiene l’ hash identificativo del profilo del consumatore è anonimo.
Se dopo aver fatto una ricerca su delle scarpe da footing siamo stufi di vederci saltar fuori in ogni sito che visitiamo pubblicità di scarpe, tute e roba simile, basterà cancellare i cookies dalla cache del nostro device e il processo di profilazione tornerà al punto di partenza.

Beh! Quasi al punto di partenza. Rimane sempre la “fingerprint” che ogni browser comunica ai server WEB dai quali scarica le pagine. La tecnica di tracciamento basata sulle “impronte digitali” lasciate dal browser è in rapido sviluppo grazie alle metodologie di calcolo big data. Al big data non serve sapere che certamente sei tu. Al big data basta sapere che probabilmente sei tu.

L’ho detto all’inizio di questo post. Per vivere nel Villaggio Globale bisogna pagare le tasse. Le tasse si pagano in tagli di metadati. e.g. per chi è curioso, presso il sito di Panopticlick si può fare un “tagliando” veloce al proprio browser per vedere quali impronte digitali vengono comunicate ai server WEB.

Tutto ciò diventerà “un poco” più invasivo quando le tecniche di remarketing dal Villaggio Globale si trasferiranno in massa nel mondo fisico.

Il Villaggio Globale è stato il banco di prova dove far maturare le tecniche di marketing end-to-end come il remarketing. Adesso però stiamo per entrare in una nuova fase e l’innocuo acronimo IoT (internet delle cose) annuncia che è giunta l’ora del “salto di layer” così che il Villaggio Globale possa fondersi con quello fisico.

Con IoT entreranno in rete gran parte delle cose che sino ad ora erano solo delle semplici cose caratterizzate dal fatto di non essere connesse in rete. Il nostro frigorifero, la nostra auto, la nostra lavatrice, la nostra giacca a vento preferita, nei prossimi mesi inizieranno gradualmente ad assumere un’identità nuova.

Ivi incluso, purtroppo, l’andar ad infoltire le file dei devices che per la loro semplicità si prestano ad essere “arruolati” nelle reti di botnet che ogni tanto vengono utilizzate al soldo dell’hacker di turno per sferrare attacchi DDoS – Distributed Denial of Service. Ebbene si, il vostro nuovo frigo con connessione internet potrebbe anche avere un secondo lavoro 🙂

Al netto del probabile infoltimento delle botnet, quali sono gli scopi di tutto ciò? Diversi direi, uno di questi: migliorare il profiling del consumatore seguendone anonimamente i passi anche quando si muove nel villaggio fisico, nel mondo reale.

Il sogno di ogni uomo o donna del marketing: leggere dentro la mente del target o, almeno poterne studiarne i movimenti. Dimmi dove ti muovi, dove ti soffermi ad osservare e mi aiuterai a capire quale cosa ti occorre.

Fantascienza? No, tecnologia (quasi) standard.

Se ne parla da molto tempo.

Già nel 2000 cercando di guardare avanti nel progettare un sistema extended-ERP per il settore del fashion decidemmo di dotarlo della possibilità di gestire un identificativo unico assegnato ad ogni capo di abbigliamento, così da poterne seguire la storia fino dal retailer. Al tempo che fu la tecnologia RFID non era ancora sufficientemente pronta… e come dice il fondatore di Oracle Larry Ellison: ci sono due maniere per arrivare tardi, una di queste è arrivare troppo presto 🙁

Oggi invece il costo di un tag di identificazione automatica è così basso da poterlo apporre anche su di una T-shirt da pochi euro. Per questa ragione nel mondo del retail ci stanno ri-provando e mi sembra pure riuscendo.

Piccoli devices crescono; come iBeacon (o wireless similari ) per avere in tempo reale la microgeolocalizzazione di ogni cliente che entra in uno store, grazie al tracciamento del suo device “wearable” (e.g. anche uno smartphone è un device wearable), così da capire quali sono i prodotti che attirano più l’attenzione del possibile acquirente e soprattutto se all’attenzione segue un contatto, una prova e poi una conversione.

Termine quest’ultimo che nel marketing operativo sta ad indicare: bingo! Il cliente è passato in cassa a pagare!

Se poi il cliente deciderà di navigare, pardon, di muoversi, nel mondo fisico in modo non anonimo le possibilità d’interazione fra i retailers ed i propri consumers tenderanno a superare qualsiasi immaginazione.

Possibili effetti collaterali a causa di tutto ciò? Mi rimetto alla lungimiranza dei legislatori, anche se, pensandoci bene, il fondersi del Villaggio Globale con il mondo fisico sarà per noi un poco come tornare alle origini, e questa non la vedo come necessariamente una cosa terribile.

Mi spiego, io ad esempio sono nato in un piccolo paese dove ci conoscevamo tutti. Quando entravo in un negozio il gestore già sapeva le mie preferenze o quelle della mia famiglia.

Quando IoT sarà ampiamente diffuso nel settore del retail, entrare in un negozio a Milano o a Dusseldorf sarà come trovarsi nel mio paesino di origine.

Vero, nuove immense possibilità di hacking si parano all’orizzonte… pensandoci bene i versi de L’infinito del Leopardi forse possono stuzzicare anche altre menti, oltre a quelle della gente del marketing… ma questo rischio non credo fermerà il processo in corso.

Comunque, ripeto, il dato di fatto è che se qualcuno pensa che l’era dei big data è già arrivata a maturazione si sbaglia. Fino ad ora abbiamo fatto il giro di rodaggio e dall’ IoT in avanti si inizierà a fare sul serio.

Non dovremo aspettare molto. Il lancio di IoT è un’assoluta necessità di business per i market movers del settore dei devices hardware. Il mercato dei microprocessori di ultima generazione è prossimo alla saturazione e come se non bastasse sono stati raggiunti i limiti fisici della legge di Moore.

Sarà sempre più difficile e costoso realizzare nuovi microprocessori con capacità di calcolo maggiore di quelli attualmente in commercio. Per queste ragioni i business models dei produttori di hardware stanno subendo un importante cambio di strategia e nei prossimi mesi vedremo comparire sempre più di frequente “cose” capaci di collegarsi ad Internet, grazie al fatto di essere dotate di mini microprocessori come quelli della famiglia Quark di Intel che al costo di pochi dollari cadauno andranno ad equipaggiare il mondo dei wearable devices, della domotica, dell’automotive, etc…

Quindi, altro che big data. L’ enorme massa di dati eterogenei che si andrà a generare in futuro richiederà tecniche di storage ed elaborazione inedite.

…Voliamo perché ci siamo ispirati guardando gli uccelli che volteggiano in cielo.
…abbiamo inventato i carri e poi le auto perché un tizio vedendo dei rolling stones invece di correre a chiedergli l’autografo è andato in garage ad inventar la ruota.
…implementeremo nuovi sistemi di storage e di data analysis osservando che in un grammo di DNA sintetico ci sta un petabyte, unità di misura corrispondente a 1000 terabyte, o se preferite, pari a un milione di gigabyte. Non male come capacità di storage il DNA.

annibale@expertconfigurator.com

Lascia un commento Annulla risposta