Hans Blogt

5 redenen waar jouw data science project op kan stranden

De hype rond big data en data science is eigenlijk al over z’n toppunt heen: kans groot is dat we nu vallen in een diep, diep dal van teleurstellingen. En BRAVO we hebben dat zelf weer met elkaar voor elkaar gekregen! Gelukkig is er licht aan de tunnel: je belangrijkste valkuilen scherp op het netvlies te houden all along the way!

Nummer 1 met stip: ongefundeerde verwachtingen en geloof zonder gezond verstand

Het meest tenenkrommend vind ik persoonlijk de haast religieuze trekjes mijn sector dreigt te krijgen door ongefundeerde verwachtingen en over-versimpeling van het proces wat data science heet. Een goed voorbeeld is de verwachtingen van Artificial Intelligence en Machine Learning. In de basis blijft data science: onderzoek op data, de meest relevante data bij elkaar harken en vervolgens (vanuit menselijke brein geredeneerd) domme machines miljoenen berekeningen laten doen op data-elementen op basis van een x aantal fundamentele assumpties. Machines dan vervolgens keuzes laten maken welk model de beste fit levert blijft een kwestie van goed die assumpties blijven bewaken als mens. Dat geldt ook voor keuzes die je maakt om nieuwe databronnen of gegevens in een bestaand model te gooien, je moet intellectueel blijven checken wat er nu precies onder die AI motorkap gebeurt om te voorkomen dat je uiteindelijk letterlijk voor aap staat.

Blijf dus realistisch: ieder statistisch model heeft z’n merites en tekortkomingen, en ieder model heeft zijn specifieke set van aannames die je terdege ter harte moet nemen. Verder een stukje boerenlogica: troep erin – troep eruit, en wat er niet in zit, komt er ook niet uit. Dus inventariseer vooraf heel kritisch je databronnen op kwaliteit en volledigheid.

Verdwaald raken in het oerwoud van vendors en oplossingen

Sinds een aantal jaren is de “chief Marketing Officer” willens en onwetens gebombardeerd tot eigenaar van customer data applicaties: van insights tot aan campaign management software. Dit heeft geleid tot een rampzalig landschap van mogelijke oplossingen (zie plaatje boven), waarbij één ding zeker is: er is geen enkele leverancier die jou de marketing automation oplossing levert voor alles . Er is dus ook geen standaard antwoord welke data-aanpak het beste is voor de toekomst, dus ook niet zonder bezinning je storten in een NOSQL of Hadoop oplossing!

Dus je zult keuzes moeten maken, en waarschijnlijk al x reeds geimplementeerde applicaties ter discussie moeten stellen. En hopelijk is het landschap bij jou nog overzichtelijk: houden zo graag!

Zondigen tegen de ijzeren wetten van logica en statistiek

Zo’n mooie uitspraak: “we hebben al onze bronnen in een big data oplossing gegooid en wow! Kijk wat er uit kwam”. Dan weet je dus letterlijk een kat in de zak gekocht: maakt niet uit welke data science techniek, er zijn altijd ijzeren wetten van logica en statistiek die geen enkele tool voor jou kan oplossen. Denk hierbij aan causaliteit (regen->stoep of stoep->regen), maar ook verborgen correlaties tussen variabelen die volledig verklaren waarom iets is zoals het is zoals het verband tussen ooievaar populatie en geboortecijfers. Dus het maakt niet uit welke tool je gebruikt, je zult gevonden correlaties moeten challengen, en het enige instrument die dat goed kan is wederom gezond boerenverstand.

Onderschatting van de ijsberg aan data operaties onder water

Ondanks alle mooie tools die vandaag de dag (bijna) gratis beschikbaar zijn: 90% van al het data science werk blijft prepareren van data. Vaak is het een bijna banale klus om toegang te krijgen tot de juiste databronnen waarbij je afhankelijk bent van weinig meewerkende en -denkende IT afdelingen en waardeloze interface documentatie. En dan die data zelf: normale verdelingen bestaan niet, je hebt te dealen met missing data en in de praktijk moet je nagenoeg alle variabelen serieus bewerken en transformeren voordat ze enige betekenis gaan krijgen in enig model. Dit blijft het ambacht van een data science specialist en is bij iedere nieuwe situatie een uitdaging pur sang.

Techneuten de kar laten duwen

Afgelopen 20 jaar hebben grote bloopers mogen meemaken in de wereld van “marketing automation” zoals bijvoorbeeld CRM. Kern van het probleem: het waren techneuten die het bedachten en vervolgens dachten dat zij degenen waren die verlicht dat commercieel tuig in het bedrijf de juiste richting op moesten duwen. Met alle gevolgen van dien: meeste bedrijven gebruiken CRM niet meer dan als veredelde Rolodex kaartenbak, maar wel tonnen armer en de organisatie onnodig over de kling gejaagd. Eigenlijk ook hier een simpele vergelijking: ga naar een gemiddelde haven en tel het aantal duwboten versus het aantal sleepboten. Met andere woorden: de commerciële stakeholders horen de technologische innovatie, in dit geval data science, te trekken en richting aan te geven, hierbij de techneuten met echt verstand van zaken naar relevantie in te zetten. Dus svp: geen paard achter de wagen spannen wil je iets bereiken in de wereld van data science.

Zo. Hopelijk is het mij gelukt je wakker te schudden uit je droge Big Data droom, en dat je niet als rechtgeaarde inboorling het big data–dier opensnijdt en darmen gaat lezen. Dat heeft bepaalde culturen echt niet veel verder gebracht dan het in het zadel helpen van de “data-scientist-of-all -times“: de dorpstovenaar.

Wil je wel gericht op weg geholpen worden, je weet me te vinden!

Contact

Hans de Boer

+31 (0)6 290 600 66
pi@piconcepts.nl

Big Data Buzz

Altijd op de hoogte van de laatste ontwikkelingen.

Schrijf je in!