Master Data Management: Dataintegration- og modellering

Dette er første blogindlæg i en serie, hvor vi går i dybden med typiske problemstillinger inden for Master Data Management, og hvordan du kan løse dem. I denne blog dykker vi ned i, hvordan en dataintegrationsløsning kan give dig fuldt integrerede, rensede og opdaterede data, du kan stole på.

Af: Ida Eriksdotter

9. juni 2021

Vi opbevarer data flere steder end nogensinde før – i CRM-systemer, diverse økonomisoftware, lead-genereringsværktøjer, apps – vi kunne blive ved. Hvert af disse værktøjer styres af separate teams, som hver har deres egne processer til, hvordan de opretter og opdaterer data.

Nogle gange overlapper dataene, så de findes i flere systemer på samme tid, men med forskellige standarder og formater – og endda med forskellige værdier for samme dataobjekter. Vi oplever ofte, at virksomheder ikke har en integration mellem systemerne eller en solid arbejdsproces, som sikrer, at dataene bliver ensartet. Dette gør, at data hurtigt bliver forældede og dermed mindre troværdige.

Det mest optimale er, at opdateringen mellem systemer bliver automatiseret – med så lidt manuelt arbejde som muligt for at undgå indtastningsfejl mv. Det stiller dog krav til løbende evaluering og opdatering af disse it-integrationer for at sikre, de altid er tilsvarende og passer til forretningsprocesserne.

Typiske udfordringer ved dataintegration

Når der ikke er overblik over, hvilke data der er mest opdaterede og troværdige, bliver det bl.a. en stor udfordring at få et overblik over dine eksisterende og potentielle kunder samt deres interaktion med din virksomhed.

En anden udfordring er, at data normalt er meget forskellige og nogle gange findes i såkaldte ”datasiloer”, hvor dataene kun er tilgængelige for bestemte afdelinger eller personer. Enhver person eller afdeling, der har brug for adgang til hele datasættet – f.eks. til oprettelse af målrettede salgsindsatser og marketingkampagner – kommer hurtigt til at sidde fast i forsøget på at få adgang til datasættet for at kunne analysere og arbejde med dataene.

Der kan dog også opstå situationer, hvor der er for meget data. Hvis data indsamles vilkårligt fra flere kanaler, står du over for en stor udfordring, når du skal finde frem til de skjulte skatte i dine data, da de drukner i en masse irrelevant information. Når der bliver oprettet enorme datamængder på daglig basis, bliver det nemlig svært at administrere, analysere og udtrække værdi fra dine data. Med andre ord skal data forberedes, inden de bliver brugt.

Med forskellige, forældede og undertiden for mange data vil din virksomhed hurtigt miste forretningsmæssige fordele, da det er svært at opnå den optimale effektivitet samt svært at få godt udbytte af de mange data. Og hvis I samtidig sidder fast i de gamle systemer, arbejdsprocesser og datasiloer, står dine teams uden de effektive arbejdsværktøjer, der er nødvendige for at udføre deres arbejde på en optimal måde.

Datamodellering

Den traditionelle løsning til ovenstående udfordringer er ETL, som kopierer datasæt, harmoniserer dem og uploader dem i én database eller et data warehouse. Ulempen ved dette er dog ofte, at løsningen alligevel ikke giver on-demand tillgænglighed til data, og du risikerer et komplekst dataintegrationsprojekt, som kræver mange ressourcer i forsøget på at opbygge din egen forbindelse mellem forældede databaser. Det kan efterlade dig med et ufleksibelt system uden skyggen af automatisering og skalerbarhed.

Ovenstående udfordringer løses med en solid dataintegrationsløsning, der kan bringe dig foran dine konkurrenter, reducere omkostningerne ved datavedligeholdelse og få din virksomhed til at vokse. Der findes heldigvis et værktøj, som kan hjælpe dig med dette – i én samlet pakke; CluedIn.

Hvordan adskiller CluedIn sig fra traditionel dataintegration- og modellering?

CluedIn er en Master Data-platform, der integrerer alle dine data på tværs af systemer uden komplekse designløsninger, og platformen indkapsler alle de dataadministrationsprincipper, der er nødvendige for at få fuldt integrerede, rensede og opdaterede data. Selve integrationsprocessen starter med datamodellering, hvor du afgør, hvilke datakilder du vil forbinde, og hvordan dataene skal struktureres – dvs. hvilke kategorier af stamdata, der er de vigtigste for din virksomhed. Dette kan være kunder, partnere, kontaktpersoner, produkter, salgsområder osv. CluedIn kommer med flere standardiserede stamdata-kategorier som f.eks. organisation og bruger, men du og din virksomhed kan også selv bestemme, hvordan data skal modelleres.

Forskellen mellem CluedIn og traditionel datamodellering er, at du ikke laver en fast datamodel, inden du importerer data til CluedIn. I stedet bestemmer du dine stamdata, kilder samt mulige unikke identificeringsnøgler mellem dine data. Data der, når de er uploadet til CluedIn, matcher på identificeringsnøgler eller referencenøgler – i form af samme eller lignende metadata – bliver enten automatisk slået sammen, eller så bliver der lavet en relation mellem dem. Selve datamodellen laver stort set sig selv og er fleksibel ud fra din virksomheds behov. Den her form for datamodellering kaldes for Eventual Connectivity og er det grundlag, som CluedIn bygger på.

Standardisering

En solid dataintegration er essentiel for at sikre, at data er ens på tværs af systemer. Data bliver dog først relevante og valide, når de normaliseres og tilpasses virksomhedens forretningsbehov. Som nævnt tidligere leveres data ofte med forskellige standarder og formater afhængigt af system, afdeling eller bruger. Et af de første trin mod harmonisering af data fra alle dine kilder er at oprette en navngivningsstandard.

Tag adresser som eksempel – i ét system kan den første linje kaldes ’vej’, i en anden ’adresse’ og i en tredje ’adresselinje 1’. For at kunne bruge data er det vigtigt at definere en tværgående navngivningsstandard, som alle brugere i din organisationen er oplyst om. Dermed vil du være i stand til både at normalisere dataene yderligere og skubbe dem ud til ’downstream’-brugere såsom Power BI, Tableau og HubsPot – uanset hvilket system dataene stammer fra.

I CluedIn bruger du derfor et standardiseringsværktøj kaldet ’vocabularies’. Vi dykker dybere ned i ’vocabularies’ i et kommende blogindlæg i serien, men kort sagt giver du hver af dine stamdatafelter et standardnavn. De førnævnte adressefelter kan f.eks. hedde [YourBusiness].Customer.AddressLine1. Alle datafelter, der er relateret til første linje i adressen, flettes ind i vocabulary for at give én enkelt visning. Dette giver dig ikke kun et let overblik over dine stamdata, men det løser også udfordringen ved for mange data. På denne måde bevarer du et fokus på de data, der er vigtigst for din virksomhed samtidig med, at I skaffer jer af med de irrelevante data.

Normalisering

For at få én samlet visning skal du normalisere dataene yderligere i én standard, så de kan behandles og bruges på en samlet og konsistent måde. Der er flere muligheder for at gøre det i CluedIn, både når standardiseringen er mere statisk og sandsynligvis ikke skal ændres – såsom normalisering af ord, så store og små bogstaver står korrekt – men også for mere dynamiske standarder, der kan ændre sig over tid – også direkte af en Data Steward.

Dette kan f.eks. være ved at ændre værdier (se eksempel i nedenstående figur), hvor systemer har forskellige standarder for et felt til en fælles standard. Det kan også være ved at fjerne irrelevante data – såsom alle N/A og null-værdier eller ikke-numeriske værdier i momsfeltet – for bedre at kunne stole på, at feltet rent indeholder et korrekt momsnummer.

Figur: Illustreret eksempel – kundeflag.

Fordelen ved at bruge normaliseringsregler som disse er, at det giver dine data mere mening. Data skal omorganiseres på en sådan måde, at brugerne korrekt kan bruge disse data til yderligere forespørgsler og analyser. Og ved at skifte til fælles standarder og værdier får du data, der kan sammenlignes, hvilket eliminerer risici for mistolkning og fejlagtig anvendelse. Hvis du f.eks. ønsker at analysere, hvor mange kunder du har, vil det gøre det lettere, hvis kundeflag kun har to værdier, der angiver, om de er kunde – ’ja’ eller ’nej’ – i stedet for at behøve tage stilling til flere forskellige formater.

Data kan altid opdateres og ændres yderligere i CluedIn Clean-værktøjet.

Rens af data

Ved hjælp af CluedIn Clean-værktøjet kan du finde huller i data, identificere potentielle normaliseringsregler og bulk-rense data. Som allerede nævnt kan momsfeltet være meget vigtig for din virksomhed, og du vil derfor gerne sikre dig, at momsfeltet faktisk indeholder et korrekt momsnummer i et bestemt format. En Data Steward kan ved hjælp af denne funktion i CluedIn let foretage en klyngeanalyse på momsfeltet og identificere momsnumre, der ikke følger den korrekte standard. De kan f.eks. indeholde forkerte tegn, mangle landekode eller indeholde mellemrum. Nogle af resultaterne kan være potentielle kandidater til normaliseringsregler, og andre kan renses og opdateres direkte i Clean-værktøjet.

Resultatet af disse integrations- og normaliseringstrin er data, der er harmoniseret i en enkelt visning og klar til at blive benyttet af downstream-brugere, hvilket er nøglen til at blive en datadrevet organisation.

Del på

Andre blogindlæg du måske vil finde spændende

2021-06-17T11:21:43+02:00
Go to Top