Hans Blogt

Big Data bullshit bingo

Big Data roept kennelijk bij nogal wat bedrijfsbeslissers en marketeers onbegrensde kinderlijke verwachtingen op. Ik erger me bijna dagelijks geel en groen aan de nonsens die over dit onderwerp wordt verkocht: het wordt een religie van vals hopen. Hoog tijd om een en ander recht te zetten voordat je de big data stier bij de horens vat.

Big data is geen geheime formule, exotische data analyse methode of andere Houdini truc: het is slechts een methode om grote data volumes efficient te verhapstukken. Op zich dus zeer waardevol, maar nog steeds is het gewoon data met alle klassieke beperkingen, vooral als de kwaliteit belabberd is. Maar om één of andere reden roept het wel iets magisch op. Symptomatisch: ik las laatst een wereldwijd onderzoek over top 10 disruptieve technologische ontwikkelingen. Allen toegelicht met markt / omzet voorspelling, behalve nummer 3: big data. Voor mij in elk geval een duidelijk signaal dat vooral Big Data beliebers geen flauw idee hebben waar ze in geloven.

Er zouden gouden schatten liggen in ongestructureerde data, zo’n 90% van alle gegevensbronnen wereldwijd. Zal best, maar wil je die ongestructureerde bronnen ontsluiten dan zal je ze toch echt moeten structureren en dan blijkt rauwe tekst data een ongelofelijk complexe bron te zijn om conclusies uit te trekken. Sterker nog: je zult eerst doelen moeten stellen anders komt er niets uit.

Nog zo’n dwaalleer: “wij hebben big data analyse toegepast op onze bedrijfsdatabanken en er kwamen verrassende resultaten uit die onze bedrijfsvoering fundamenteel hebben verandert.” Dit is precies hetzelfde wat in donker Afrika nog steeds common sense is: kip slachten, de darmen lezen, en daar vervolgens naar handelen. Self fulfilling prophecies dus.

Nu even wat meer analyse technisch tegengas: statistische analyses zonder eerst nadenken over te verwachten relaties, en een theoretisch model, hoe simpel ook, en het principe van 0-hypothese verwerpen is vragen om hilarische ongelukken. Geloof me: er is correlatie tussen de omvang van radijsjes en de rondborstigheid van de vrouwen die ze eten, net als het knikkerhard verband tussen ooievaar populatie en geboortecijfers. Hieraan gerelateerd: causaliteit. Welke statistisch techniek dan ook, er is geen enkele methode dan de menselijke geest om te bepalen wat oorzaak, en wat gevolg. Dus blijft ook bij big data analyses de noodzaak om gewoon je nuchter verstand te gebruiken.

Tot slot een zuiver wetenschapsfilosofische opmerking. Statistische relaties lijken altijd achteraf heel logisch en worden zonder nadere kritiek geadopteerd. Maar: hoe zit het met falsificatie? Onze menselijke natuur is geneigd gevonden verbanden te herbevestigen, we schakelen over op ons “zie je wel” buikgevoel. Het resultaat wordt al heel gauw een tunnelvisie die een aantal Nederlanders een gratis verblijf in ‘s staats hotel hebben opgeleverd. Laten we asjeblieft hopen dat big data marketeers geen Fredje Teeven gaan spelen…

Kortom: big data is geen toverformule: gezond verstand, een kritische geest, een hypothese framewerk die getoetst dient te worden en falsificatie à la Karl Popper blijft noodzakelijk. Kwartje gevallen? Ok: dan zou het kunnen zijn dat big data analyses wat opleveren. Het blijft kansberekening.

Contact

Hans de Boer

+31 (0)6 290 600 66
pi@piconcepts.nl

Big Data Buzz

Altijd op de hoogte van de laatste ontwikkelingen.

Schrijf je in!