Hvem vil ikke gerne kunne spå om fremtiden? Forudsigelse er nemlig kernen i en stribe af de mest forretningskritiske spørgsmål. Spørgsmål som ”Hvad bliver vores salg i fjerde kvartal?”, ”Hvor lang tid skal vi afsætte til projektet?” eller ”Hvilke af vores kunder er i fare for at forlade os?”. De spørgsmål er dog notorisk svære at svare på. Fremtidig udvikling bliver påvirket af et utal af faktorer, der kan være så godt som umulige at få styr på som almindelig dødelig. Derfor har mange brugt en blanding af krystalkugler og mavefornemmelser til at finde svar – ofte uden held. Heldigvis findes der en serie af metoder og teknologier, der kan erstatte krystalkuglerne med datadrevne beslutninger; nemlig Predictive Analytics.

Predictive Analytics dækker over en proces, hvor man udnytter – ofte komplekse – mønstre i historiske data til at forudsige fremtiden ved hjælp af avancerede metoder, kendt som Machine Learning. Den store fordel ved Machine Learning er, at hvor vi mennesker normalt bliver overrumplet jo mere data, vi skal overskue, bliver Machine Learning-modeller bare bedre. Selvom det lyder som sort magi, kan man ikke bare samle en masse data, trække i et magisk håndtag og få fantastiske forudsigelser. Det kræver nemlig en masse overvejelser om alt fra eksempelvis beskrivelse af problemstilling over dataindsamling til sammenligning af forskellige modeller at udnytte Machine Learnings fulde potentiale. Herunder giver vi vores bud på de vigtigste overvejelser for at komme gang med Predictive Analytics!

Det rette mål for et Predictive Analytics-projekt

Den første overvejelse på Predictive Analytics-rejsen er at blive præcis omkring, hvad man gerne vil forudsige. Selvom det næsten kan lyde trivielt, er det ofte en uhensigtsmæssig definition af målet, der forhindrer modellen i at blive forankret i forretningen. En af grundene til, at det er overraskende svært er, at vi mennesker er virkelig gode til at fortolke og forstå nuancer. Hvis CFO’en spørger, hvilke vigtige kunder, der vil frafalde på kort sigt, har vi en umiddelbar forståelse af, hvad hun mener. En algoritme ville være på bar bund, for hvad er en ”vigtig kunde”? Og hvor lang tid er ”kort sigt”? En mere ”maskinvenlig” formulering ville være ”hvilke kunder med en gennemsnitlig månedlig omsætning på mere end 100.000 vil forlade os inden for tre måneder?” På den måde har man defineret, både hvem man er interesseret i (kunder med en omsætning på over 100.000), og hvad man vil forudsige (hvorvidt de forlader forretningen inden for tre måneder).

De rette hypoteser

Når man først har defineret et klart mål, er det tid til at overveje hypoteser; man skal med andre ord finde ud af, hvad der potentielt kan bidrage til at forudsige målet. Hvis man f.eks. gerne vil forudsige næste måneds omsætning, kunne en mulig hypotese være, at nuværende måneds omsætning, størrelsen af ordrebogen eller tiden på året spiller ind på næste måneds omsætning. Igen er det essentielt at udtrykke disse hypoteser i features, som Data Scientists ville kalde dem, som modellen kan forstå: ”Nuværende ordrebog i kr.” er en god feature; ”Den generelle stemning i salgsafdelingen” er ikke.

For at finde de bedste hypoteser og features er det også vigtigt at involvere domæneeksperter fra forretningen. Det er dem, der har de skarpeste ideer til, hvad der påvirker hvad, hvilket er uundværligt input til modellen. Desuden øger man tilliden til modellen ved at involvere brede dele af forretningen, hvilket fører til bedre forankring og værdiskabelse.

Det rette data

Efter at have fået styr på hypoteserne, og hvordan de skal defineres og udtrykkes med data, er man klar til at samle data. Man hører ofte, at data er det nye olie, og ligesom olie kan data først bruges, når man udvinder og behandler det. Her er det vigtigt at involvere organisationens dataansvarlige, så man kan danne sig et overblik over, hvilket data der kan teste ens hypoteser, og hvordan man får fat på det. Sommetider erfarer man, at der ikke direkte findes data tilgængeligt, som kan teste ens hypoteser direkte. Problemet har grundlæggende to løsninger: få fat i eksterne data eller brug approksimerede data.

Eksterne data kan hentes online fra eksempelvis Twitter eller andre sider, eller de kan downloades direkte fra offentligt tilgængelige databaser. Andre data er ikke frit tilgængelige, men kan købes fra forskellige leverandører. I alle tilfælde er det vigtigt at overveje, hvordan og hvor betydningsfulde de eksterne data bidrager til at forudsige f.eks. churn.

Approksimerede data er, når data ikke tester hypotesen direkte, men bare er tæt på. Det kunne f.eks. være, hvis man bruger antal tweets med ordet ”Pepsi”, som et bedste bud på omtalen af Pepsi. Selvom man potentielt ”misser” mange dimensioner med approksimerede data, kan det ofte være værdifuldt for analysen, og ofte er det den eneste måde, man kommer i nærheden af brugbare mål som f.eks. omtale.

Den rette model

Nu hvor hele forarbejdet er på plads, er det tid til at lave selve modellen. Hertil hører en masse spændende tekniske overvejelser, hvor langt de fleste fint kan varetages af en Data Scientist. Der er dog ét afgørende spørgsmål, som er vigtigt at involvere forretningsinteressenter i: nemlig hvordan forholdet mellem præcision og gennemsigtighed skal være. Man kan nemlig groft sagt dele Machine Learning-modeller op i to: komplekse black box-modeller, der leverer meget nøjagtige forudsigelser, der er næsten umulige at forstå og kræver fuldkommen enorme mængder data. På den anden side står simplere, mere gennemsigtige modeller, der let kan fortolkes, ikke behøver så store datamængder, men som ikke altid er lige så nøjagtige. Selvom det kan være fristende at gå all in på deep neural networks og andre hypede modeller, oplever mange, at det faktisk er lige så vigtigt, hvorfor modellen forudsiger noget, som hvad den faktisk forudsiger. Især i finans- og sundhedssektoren kan Black box-modeller totalt underminere tilliden til forudsigelserne, hvilket gør, at modellen bliver kasseret til fordel for de velkendte mavefornemmelser.

Den rette forankring

Selv efter den endelige model er fundet, og de første resultater er kommet tilbage, mangler man stadig de måske vigtigste overvejelser; nemlig hvordan man forankrer modellen ordentligt i forretningen. Meget af grundarbejdet for en god forankring har vi gennemgået i de ovenstående afsnit; navnlig inddragelse af stakeholders i hypotesegenerering samt gennemsigtige modeller. Der er dog to centrale elementer, der kan hjælpe med at cementere forankringen.

Det første er performancemålinger i testfasen. Performancemålinger kan kaste lys på, hvor præcis modellen er i sine forudsigelser, samt hvornår den rammer plet, og hvornår den rammer uden for skiven. På den måde kan slutbrugerne få mere realistiske forventninger til modellen samt vide, hvornår de skal være ekstra opmærksomme.

Det andet element er løbende effektmålinger. Efter modellen er sat i drift, er det vigtigt at benchmarke resultaterne mod den arbejdsgang, forretningen havde inden modellen. Her kan man med fordel vælge klare KPI’er som f.eks. frafaldsrate, så man har noget håndfast at sammenligne med. Hermed tydeliggør man de fordele modellen giver forretningen, hvilket gør medarbejderne villige til at bruge den.

Afrunding

Ved at gå igennem ovenstående overvejelser, er du allerede godt på vej på rejsen mod Predictive Analytics i din organisation. Selvom om rejsen godt kan virke lang og uoverskueligt, er det vigtigt at huske på, at AI er en iterativ proces: for hvert trin på vejen lærer man noget nyt, som kan bruges til at gøre hypoteserne skarpere, modellerne bedre og forretningen klogere på fremtiden!

God fornøjelse med dit Predictive Analytics-projekt!

Måske kunne det her også være interessant for dig: