Der er mange begreber inden for Data Science og Advanced Analytics.
Derfor kan det være en udfordring at bevare overblikket over de væsentligste begreber, og hvad de betyder. Og mindst lige så vigtigt:
hvordan de spiller sammen.

AI, Deep Learning, Machine Learning, Data Science… der findes mange begreber, og mange bruger dem uden at vide, hvad begrebet faktisk dækker over. Brugen af begreberne virker nogle gange tilfældig, og man kunne have den opfattelse af, at begreberne dækker over det samme. Valget af begreb drives nemlig ofte af, hvilket begreb der har den største “hype”-effekt. Det er synd og skam, for de fleste begreber dækker over noget forskelligt, og alle begreberne har sin egen berettigelse. Det kan dog være svært at adskille begreberne, da de overlapper hinanden og spiller sammen. Denne artikel indeholder en fortolkning af nogle af de væsentligste begreber indenfor Data Science og Advanced Analytics.

Databaser & Data Processering:

For at kunne bruge data til at skabe nogen form for viden skal den hentes, transformeres og lagres. Termerne ’Databaser & Data Processering’ dækker over indhentning, opbevaring og manipulation af data. Det er også under disse termer, at man kan definere en klassisk Business Intelligence-disciplin som Data Warehousing.

Visualisering

Visualisering er en disciplin, hvor data arrangeres som figurer eller grafer. Overordnet kan visualisering ske med to formål, 1) som en del af Visual Analytics hvor formålet er at bruge synet og den menneskelige kapacitet til at genkende mønstre i analysen af data, og 2) som visualisering af resultater, hvor formålet er præsentere resultater af analyser til andre.

Statistik

Klassisk statistik dækker f.eks. over emner som stikprøveteknik, fordelingsteori, hypotesetest og design samt analyse af eksperimenter. Denne type af metoder anvendes i høj grad inden for akademisk forskning, men kan også benyttes til at undersøge forretningsrelaterede behov. Metoderne benyttes oftest, når det ikke er muligt eller ønskværdigt at indsamle alt data, men når man derimod indsamler en stikprøve af disse data. Når man ikke har fuld information (læs: alle data), er man nødt til at benytte specifikke metoder for at lave pålidelige og valide analyser.

Mønstergenkendelse

Som navnet antyder handler mønstergenkendelse om at genkende mønstre i data. Dette kan ske ved brug af visualiseringsteknikker, matematiske teknikker eller statistiske teknikker, og ofte er der tale om en kombination af forskellige teknikker.

Neurocomputing

I et ønske om at kunne modellere den menneskelige hjerneaktivitet har forskere udviklet matematiske modeller som skal simulere neural aktivitet. Disse modeller (Neurale Netværk) har vist sig at være anvendelige til at løse mange andre problemstillinger grundet deres høje grad af fleksibilitet og kompleksitet. Modellerne bruges bl.a. inden for Artificial Intelligence, Machine Learning og Deep Learning.

Artificial Intelligence (AI)

Formålet med AI er at få apparater til at opfatte deres miljø/omverden og handle på måder som sikre, at et mål opnås. Begrebet dækker således over ønsket om at skabe systemer, som i yderste konsekvens er i stand til at tænke og agere selv. AI dækker både over en tilgang eller filosofi og teknikker som f.eks. Machine Learning.

Machine Learning (ML)

ML dækker over en lang række af værktøjer som benyttes til at lære sammenhænge i data. Gennem mange iterationer over modellernes parametre kan disse værktøjer bruges til at finde de bedste løsninger/sammenhænge på problemer i data. Der findes overordnet to typer af ML: Supervised og Unsupervised.

Deep Learning

Deep Learning er en specifik del af ML, hvor man, ved hjælp af multiple modeller som bygger på outputtet fra hinanden, kan lære meget komplekse sammenhænge. Det er ofte avancerede neurale netværk med mange lag som informerer hinanden.

Data Mining

Data Mining er metoder til at arbejde med bl.a. ML-teknikker til at frembringe viden og forretningsværdi. Det er således ikke blot teknikker til dataanalyse, men omhandler mere specifikt de principper og procedurer, som man skal arbejde med for, at anvendelsen af ML-teknikkerne kan ende ud i forretningsværdi. Mest kendt er nok CRISP-DM (Cross-Industry Standard Process for Data Mining) som dækker Data Mining-processen fra start til slut.