Hans Blogt

Arificial Intelligence wil ik! Waarom?

Onlangs bij een klant had ik een leuke discussie over data science toepassing: concreet het voorspellen van lead conversie kans. Ja zegt ie: ik wil een artificial intelligence oplossing, mag ook machine learning zijn want ik geloof niet zo in statistiek. Ja dan kan ik die persoon alleen verwijzen naar de Turing test: als een computer een mens zodanig voor de gek kan houden dat hij/zij denkt dat deze computer een mens is, dan is het artificial intelligence.

Je begrijpt: ik voelde mij diep op mijn bliep, nee ziel getrapt en daarom toch een blog over artificial intelligence, machine learning, Genetic algoritmes en hoe dit zich verhoudt tot “gewone” datamining oplossingen.

Even eerst duidelijk maken wat het verschil is tussen een “gewone” rapportage consument en een data scientist. Een gewone rapportage gebruiker wil horen wat bijvoorbeeld per week de totale omzet, het aantal klanten en de gemiddelde omzet per klant is geweest. Hier is een data scientist totaal niet in geïnteresseerd, zij wil variantie patronen analyseren: wat is de (gemiddelde) afwijking van gemiddelden, waar liggen de uitbijters, en het liefst met zoveel mogelijk variabelen in het spel. Deze variantie-data kan met behulp van vele technieken uitgerafeld worden waarbij het vooral van belang is wat de onderliggende (data–)assumpties zijn, en zij zal dan de methode kiezen die het meest recht doet aan die assumpties. Overigens is mijn ervaring dat je wat betreft toepassen van een bepaalde techniek je echt wel een beetje mag vloeken in de assumptie-kerk zolang je maar wel voldoende checkt of je overtreding van de kerk-regels een niet te flagrante schending van de realiteit is waardoor de uitkomsten van jouw analyse echt blabla nonsense blijkt te zijn.

Een tweede fundamenteel iets waar ik ook korte metten mee moet maken is “causaliteit”. Het maakt echt niet uit welke statistische of “artificial intelligence” oplossing je kiest: het bepalen van een logische oorzaak-gevolg relatie blijft voorbehouden aan onze menselijke geest. Dus het bepalen van de causaliteit regen dus stoep is nat, of stoep is nat, dus regen blijft een intellectuele qualifier die statistisch gezien door geen enkele techniek, dus ook niet door genetic algoritmes, kan worden bepaald. In het beste geval kan de machine een afweging maken tussen een x aantal oorzaak-gevolg relaties en hieruit (op basis van historische feiten) de hoogst waarschijnlijke filteren.

Pff. Waarschijnlijk ben je al afgehaakt voordat ik kom tot de kern van mijn betoog: artificial intelligence, machine learning en genetic algorithms is slechts een voortborduring op de aloude wet dat data wetenschap primair geïnteresseerd is in “(gemiddelde) afwijkingen van het gemiddelde”. Wat daar vooral aan is toegevoegd is computer rekenkracht waardoor het bijvoorbeeld mogelijk is om in een paar seconden een miljoen keer een bepaalde exercitie te itereren en zo uiteindelijk veel sneller dan jij en ik tot een bepaald optimum te komen. En eigenlijk minder boodschap te hebben aan allerlei assumpties. Hier schuilt ook gelijk een groot gevaar: bij neurale netwerken is het bijvoorbeeld een groot probleem dat je tot echt prachtige verklarende modellen komt, alleen zijn ze niet reproduceerbaar.

Daarom: mocht je geïnteresseerd zijn in datamining analyses op jouw data, bijvoorbeeld voorspellen van lead conversie, kern van de zaak blijft dat er voldoende menselijke hersenen worden ingezet om eerst goed de onderliggende data, diverse assumpties, causaliteit, en niet te vergeten: de kwaliteit van de data te onderzoeken. Daarna is er een heel pallet van datamining oplossingen mogelijk: moge de beste winnen.

O ja nog wat: als de uitkomst van een datamining model jou niet verrassen (“duh dat wist ik al”): weet dan dat het model waarschijnlijk goed zit. Belangrijke verschil is nu dat je exact weet welke variabelen met exact welke waarden bijdragen aan een exact eindresultaat zoals leadconversiekans. Nou ja: waarschijnlijk 😉

Contact

Hans de Boer

+31 (0)6 290 600 66
pi@piconcepts.nl

Big Data Buzz

Altijd op de hoogte van de laatste ontwikkelingen.

Schrijf je in!