Master Data Management: Golden Record

Dette er andet blogindlæg i en serie, hvor vi går i dybden med typiske problemstillinger inden for Master Data Management, og hvordan du kan løse dem. I denne blog dykker vi ned i, hvad en Golden Record er, og hvordan man får skabt en.

Af: Ida Eriksdotter

16. juni 2021

En Golden Record er det ultimative mål i dataverdenen. Det er et grundlæggende koncept indenfor Master Data Management og defineres som værende den eneste kilde til sandhed – et datapunkt, der fanger alle de nødvendige oplysninger, vi har brug for om bl.a. en kunde, en medarbejder eller andre dataområder i vores datakatalog.

Målet med en Golden Record er:

  • At der kun skal findes én version af dine master data
  • At den skal indeholde en komplet beskrivelse, der dækker alle formål med brugen af data i virksomheden
  • At den skal indeholde de mest aktuelle og nøjagtige dataværdier

6 ulemper ved en manglende Golden Record

Hvis man ikke er i besiddelse af en Golden Record på sine mest værdifulde data, kan det ende med at være meget dyrt i både omsætning og kundetilfredshed. Nedenfor vil vi gennemgå 6 udfordringer, man kan støde ind i ved en manglende Golden Record.

1) Manglende helhedsbillede

En af de mest fremtræden ulemper ved en manglende Golden Record findes i ens kundedata. Når der f.eks. findes dubletter af en kunde – med flere interaktioner registrerede på forskellige poster – bliver det bl.a. en udfordring at finde frem til udestående handlinger.

Dubletter opstår tit på baggrund af, at forskellige afdelinger sidder inde med forskelligartede informationer omkring en datapost. Afdelinger som salg, økonomi, logistik og marketing kan alle have deres egne datasæt, der viser bestemte karakteristika ved en kunde. Økonomiafdelingen ved bl.a., hvordan og hvornår kunden har betalt for et produkt, salgsafdelingen ved, hvad kunden er interesseret i, logistik ved, hvornår produktet blev sendt ud og marketing ved, at kunden benyttede en rabatkode på et produkt efter en bestemt e-mail-kampagne. Disse oplysninger kan, for den enkelte afdeling, virke tilstrækkelige – men det er de ofte ikke. De forskelligartede datasæt vil resultere i afdelinger, der arbejder i hver deres retning. Manglen på ensartede datasæt kan i sidste ende føre til forretningsrelaterede problemer.

2) Ineffektivitet

En anden udfordring, du kan støde på, omhandler ineffektivitet. I nutidens interaktive forretningsverden indsamler vi kundedata fra en lang række datakilder, og når alle touch points med kunderne ikke er samlet i én post, skaber det forvirring, og gør det svært for brugerne at arbejde effektivt med dataene. Dubletter af data skaber bl.a. tvivl om, hvilke data der er mest korrekte. Dermed skabes der mistillid til data og systemer, og der kan desuden opstå irritation hos brugerne af dataene.

Det er tidskrævende at finde frem til den korrekt data, og i sidste ende sænker det produktiviteten i virksomheden. Når dårlige data først er kommet ind i systemet, kræver det meget arbejde at neutralisere de negative effekter af det.

3) Nedsat brug af systemer

Datatillid spiller en stor rolle i, hvordan ens medarbejdere bruger forretningssystemerne. Dit CRM og andre datastyringssystemer kan være det bedste med brugervenlig og intuitiv funktionalitet, men hvis systemet er fyldt med duplikatdata, vil brugerne hurtigt få øje på det, og det kan lede til yderligere frustration og ineffektivitet hos medarbejderne. Derfor vil medarbejderne søge mod alternative løsninger – såsom at opbevare sine data i Excel, så andre afdelinger ikke kan påvirke den – til gengæld får de andre afdelinger ikke glæde af indsigterne i dataene.

4) Negativ indvirkning på virksomhedens omdømme

Ved at forsømme sine datas helbred, forsømmer man på samme tid sin virksomheds sundhed. Kunder er en essentiel del af ens forretning. Ved at forbedre kvaliteten af dataene, de modtager, maksimerer man effektiviteten af ​​sin kommunikation og bygger på sit omdømme i markedet.

Hvis ens data indeholder dubletter, måske med forskellige dataværdier, risikerer man nemlig, at forskellige afdelinger kommunikerer med den samme kunde gennem forskellige kanaler – muligvis på baggrund af forskelligartede data. Det kan give et billede af virksomheden som værende uprofessionel.

5) Misser salgsmuligheder

At kunne bruge sine data effektivt ifm. salg er vigtigere end nogensinde. Hvis marketingaktiviteter, salgskontakter, licenser og kontrakter er registreret på forskellige dataposter, så er chancen for at få et helhedsbillede, opspore salgsmuligheder og opbygge en god salgsstrategi meget lille.

Det er f.eks. langt nemmere at identificere muligheder for kryds- og upselling på baggrund af komplette data og dermed også nemmere at skabe et holdbart kundeforhold.

6) Ukorrekte rapporter og mindre informerede beslutninger

Hvis du planlægger at bruge dine data til at træffe informerede beslutninger og forudsige, hvad du skal gøre for at sikre fremtidig forretningsvækst, skal du sørge for, at dine data er nøjagtige, komplette og frie fra dubletter. Beslutninger baseret på data af dårlig kvalitet er nemlig ikke meget bedre end dem, der træffes på baggrund af mavefornemmelsen.

Opdager man, at data i en rapport er mangelfuld eller ukorrekt, vil man ofte lede efter hurtige genveje for at ”lappe” dataene, hvilket lægger et pres på Data Stewards, som skal fikse den dårlige datakvalitet. Dermed lægges ansvaret på få personer i stedet for at have en langsigtet løsning, som involverer hele virksomheden og deres brug af data.

47% af alle nyoprettede dataposter indeholder mindst én kritisk, arbejdspåvirkende fejl

Kilde: Harvard Business Review

Hvordan skaber man en Golden Record?

Der florerer altså meget store mængder af dårlig data rundt i virksomheder i dag. Man er nødt til at håndtere dette for at ikke risikere sin omsætning og troværdighed. At få Golden Records på sine data er ikke nemt – for så ville alle virksomheder have en. For at få en Golden Record skal data matches, renses og konsolideres. Uden at bruge en Master Data-platform er dette en uendelig opgave, for når ens data endelig er blevet renset, vil de nemlig allerede være blevet forældet. Benytter man en mere teknisk tilgang til rensning, vil en udfordring være, at det ofte bliver for rigid et system, som ikke rummer nogen fleksibilitet i forhold til, hvordan dataposter skal slås sammen.

En smartere måde at udføre disse opgaver på er at bruge en Master Data Management-platform som CluedIn. CluedIn er bygget op om en mere dynamisk tilgang, som vender det med Golden Record lidt på hovedet. I stedet for selv at bestemme, hvilken data og kilde der mest korrekt og derfra selv bygge en algoritme op, så bruger CluedIn en mere statistisk og automatisk tilgang.

Først og fremmest gælder det om at matche data. Som nævnt i vores blog om dataintegration- og modellering vælger du en eller flere unikke referencer for dine data. De referencer bruger CluedIn så til at finde andre data med samme unikke reference, så dataposterne kan slås sammen. Hvis du f.eks. har valgt CVR-nummer som en unik reference for erhvervskunder, og et givent CVR-nummer findes 6 gange i dine data (typisk på tværs af kilder) – så er der et match, og de slås sammen til én kunde i steder for 6 individuelle kunder – og lige dér starter rejsen mod at få en Golden Record.

Automatisk merge, vælg selv eller begge dele

Dubletter har ofte forskellige dataattributter – enten er de indtastet forkert, på forskellige tidspunkter, eller så er de ikke blevet opdateret med nyere data. Når dataposter slås sammen, skal det derfor overvejes, hvilke attributter der er de mest korrekte, dvs. de “vindende” attributter, som bliver en del af ens Golden Record. Udgangspunktet er, at CluedIn sammenligner data på tværs af kilder og tager 3 forhold i betragtning; senest dato for oprettelse eller ændring, ”trust levels” for den enkelte kilde eller attribut og til sidst datas nøjagtighedsmåling. Det er dog sjældent, at det når hertil, da der ofte forekommer én af de foregående forhold i data. Hvis du alligevel ikke er tilfreds med det “vindende attribut”, CluedIn har valgt, så har du mulighed for at rette i dette senere.

Fuzzy merging

Det er dog ikke alle dataposter, som har de samme referencenøgler – eller måske mangler de helt de unikke referencer, du har valgt. Næste trin er derfor at bruge fuzzy merging for at nedbringe mængden af manuelt arbejde. Fuzzy merging er fletning af data, som næsten er identiske – dvs. værdierne ligner hinanden, men er ikke 100% ens. Der kan bl.a. være forskellige måder at stave på, der kan være stavefejl eller forskellige formater. At bruge fuzzy merging på udvalgte felter, hvor der er sandsynlighed for, at de kan matches, gør at du lokaliserer flere mulige dubletter i data. Et eksempel på, hvor der ikke er 100% match, men hvor fuzzy matching med høj sandsynlighed finder et så godt som match, er casper.elkjaer@initech.com og cassper.elkjaer@initech.com. De er stort set ens, men uden at være det 100%.

En del datafelter er fritekstfelter, som kan indeholde variationer af data, så det kan give god mening af tage fuzzy merging-logik i brug herfor. Man kan bl.a. kigge efter navne, som ikke er helt ens – f.eks. kan én datapost indeholde mellemnavn, og navnet kan være stavet forkert i en anden. Det kan også være, at telefonnummeret ét sted står med landekode og i det andet ikke. Du kan selv vælge, hvor præcis dit match skal være i procent. Når CluedIn finder et match på de fuzzy-referencer, du har valgt, slår den yderligere dubletter sammen, og du er et skridt tættere på din Golden Record.

Fuzzy merging er et godt supplement til at komme til bunds med dubletter, men det er vigtigt hele tiden at evaluere dine regler og dine datas indhold, da du ellers hurtigt kan komme til at merge data, som egentlig ikke burdes merges. Et eksempel på en attribut, hvor alt for aggressiv fuzzy matching kan ske, er fornavne. 2 fornavne kan være så ens, at en algoritme isoleret set kan betragte dem som værende næsten ens, hvis de ikke står i relation til øvrige data attributter på ens golden record. Så hvis f.eks. Tim og Tom står alene i et fuzzy match, er der sandsynlighed for, de bliver flettet sammen og betragtes som én. Nogle ville måske hurtigt konkludere, at de ikke er ens, men algoritmerne er ikke klogere, end vi gør dem til, og derfor er det vigtigt at have så mange attributter i spil som muligt i et fuzzy match.

Dubletlister

Efter det unikke match på referencenøgler og et givent fuzzy match, står du muligvis stadig med et sæt dubletter, som skal håndteres manuelt – muligvis helt uden du ved det. Derfor er lister over mulige dubletter en god hjælp til at identificere dem. Her handler det om at identificere enkelte attributter og mulige sammenhænge i data, som du tror kan være identiske datasæt. De valgte attributter og regler fra fuzzy-logikken kan være et godt udgangspunkt, især hvis I har valgt en mindre aggressiv tilgang. Det kan være, I helt har udeladt navne i jeres fuzzy-logik, men hvis nu f.eks. den samme kunde er oprettet i systemet flere gange, så vil det være rart at få en liste over mulige dubletter. Det betyder ikke, at alle kunder med det sammen navn ER dubletter, men det giver et overblik, der kan arbejdes videre med. Som standard kommer CluedIn med en dubletliste over navne, men du kan selv sammensætte yderligere dataforespørgsler til jeres behov; f.eks. navn + adresse eller navn + by + landekode. Ud fra listen med dubletter kan du manuelt slå de poster sammen, som du vurderer er et match. Målet med dette er at ende med så få manuelle sammenfletninger som muligt, men hvis du ikke er sikker på, hvilke fuzzy-matching regler, der passer bedst på jeres dataindhold, kan det være en mulighed at lave flere forskellige dubletlister og afprøve den manuelle fletning først.

Rens og berigelse af data

En måde at øge sandsynligheden for, at dubletter kan identificeres og slås sammen ved hjælp af fuzzy-matching, er både at rense data for fejl og mangler og berige data med flere attributter. Fejl kan f.eks. være stavefejl og forskellige formater, som gør, at dataene ikke matcher. Mangler kan f.eks. være et mellemnavn eller post nummer på adresser mv. I CluedIn Clean-værktøjet kan du nemt identificere og rense dine data for fejl og mangler, så værdierne bliver ens og fanges af fuzzy-logikken og slås sammen med de nu mere nøjagtige attributter.

Manglende data kan også gøre det udfordrende at matche data, og det er især, hvis det er de unikke referencenøgler, som mangler på dataposter. Manglende data kan enten indtastes i CluedIn clean eller hentes ind fra eksterne kilder, websites, offentlige databanker mv. Du kan enten hente data via. en standard connector til f.eks. CVR-registeret, Dawa eller CPR, eller en som er tilpasset lige den tredjeparts dataleverandør, du har brug for.

CluedIn giver også en meget god indsigt i kvaliteten af data. Hvordan du får det overblik, vender vi tilbage med i næste blogindlæg om datakvalitetsmålinger.

Nedenstående illustration viser de fletningstrin, data går igennem i CluedIn for at nå frem til en Golden Record.

Del på

Andre blogindlæg du måske vil finde spændende

2021-06-17T11:30:11+02:00
Go to Top