Hans Blogt

Big Data voor de technobeten

Eigenlijk worden er met Big Data drie zaken doorelkaar gehaald, die ieder op zich niets met elkaar te maken hebben:

Ieder bedrijf verzamelt data, en steeds meer.
Niet alleen klantinformatie, maar denk hierbij ook aan transactie data (facturatie, productie proces, order, klantcontact, web data, et cetera. Als je eens een serieus onderzoek doet waar allemaal data wordt verzameld, en ook nog een keer hoe versnipperd dit over diverse applicaties ligt dan wordt je daar koud van. Met recht Big Data. Wil je hier commercieel iets mee doen dan is het in eerste instantie een architectuur kwestie hoe je dit slim bij elkaar brengt om een volledig klantbeeld te krijgen.

Big Data wordt synoniem gebruikt voor alternatieve data opslag technieken.
Klassiek werd data opgeslagen in relationele databases, met hierin tabellen en (hopelijk) duidelijk gedefinieerde velden. Echter met de komst van internet en zoekmachines ontstonden er grote problemen om de miljarden records in klassieke modellen op te slaan. Reden is niet alleen de hoeveelheid data, maar vooral het feit dat er geen eenduidige onderliggende database structuur is. Daarnaast gaat het om veel, zo niet 95% ongestructureerde tekst. Hoe ga je dat toch in data containers organiseren met slimme indexering? Dat is de wereld van Map-Reduce en bijvoorbeeld Hadoop. In essentie wordt met MapReduce de te analyseren data verdeeld over oneindig veel machines die ieder paralel een deel van de opdracht uitvoeren. Uitkomsten worden weer samengebracht. Tweede aspect is dat alle data wordt gesplitst in data-paren, dus als het ware allemaal kleine pakketjes. De uitkomst van het analyseren van al deze pakketjes wordt weer samengebracht (Reduce) tot het resultaat. Je snapt dus gelijk dat je zo enorme rekenkracht los kunt laten op eigenlijk simpele pakketjes data.

Data mining technieken bestaan al meer dan honderd jaar, maar eigenlijk pas afgelopen 20 jaar toegepast voor commerciele doeleinden.
Nu er zoveel data is en data zo eenvoudig kan worden ontsloten en per definitie analyseren goedkoop is geworden is het logisch dat datamining een nieuw tijdperk ingaat. Waar grondleggers als Fischer en Rao eindeloos grote matrix berekeningen moesten opstellen (ik heb het ook nog geleerd ;-)) zijn dergelijke berekeningen in milisecondes uit te voeren met bijna oneindig veel variabelen. Daarnaast is de statistiche mathematica daadwerkelijk ontploft: waar het vroeger ging om technieken gebaseerde op (non-)normaalverdelingen zijn er allerlei technieken ontstaan om op een totaal andere manier tegen variantie aan te kijken. Denk hierbij aan support vector machines, neurale netwerken, genetische algoritmen. Maar op zich staat datamining helemaal los van de hierboven genoemde data processing technieken.

Een heleboel tekst om uit te leggen dat Big Data echt iets meer is dan menig marketeer beseft. Dus moet je ook keuzes maken wat je nou eigenlijk precies wilt. En zeker niet geloven in heilige gralen en zo.

Ok, als je de principes van Big Data snapt, kunnen we overgaan naar mijn aanbevelingen. In essentie: bezint eer gij begint! Want voor je het weet ben je in een kostbaar avontuur gestapt zonder duidelijke uitkomsten, en ten onrechte: data science wordt al snel met het spreekwoordelijke badwater van teleurstellingen weggegooid. Doodzonde.

Contact

Hans de Boer

+31 (0)6 290 600 66
pi@piconcepts.nl

Big Data Buzz

Altijd op de hoogte van de laatste ontwikkelingen.

Schrijf je in!