Master Data Management: Golden Record

Dette er andet blogindlæg i en serie, hvor vi går i dybden med typiske problemstillinger inden for Master Data Management, og hvordan du kan løse dem. I denne blog dykker vi ned i, hvad en Golden Record er, og hvordan man får skabt en.

Af: Ida Eriksdotter

16. juni 2021

En Golden Record er det ultimative mål i dataverdenen. Det er et grundlæggende koncept indenfor Master Data Management og defineres som værende den eneste kilde til sandhed – et datapunkt, der fanger alle de nødvendige oplysninger, vi har brug for om bl.a. en kunde, en medarbejder eller andre dataområder i vores datakatalog.

Målet med en Golden Record er:

  • At der kun skal findes én version af dine master data
  • At den skal indeholde en komplet beskrivelse, der dækker alle formål med brugen af data i virksomheden
  • At den skal indeholde de mest aktuelle og nøjagtige dataværdier

6 ulemper ved en manglende Golden Record

Hvis man ikke er i besiddelse af en Golden Record på sine mest værdifulde data, kan det ende med at være meget dyrt i både omsætning og kundetilfredshed. Nedenfor vil vi gennemgå 6 udfordringer, man kan støde ind i ved en manglende Golden Record.

1) Manglende helhedsbillede

En af de mest fremtræden ulemper ved en manglende Golden Record findes i ens kundedata. Når der f.eks. findes dubletter af en kunde – med flere interaktioner registrerede på forskellige poster – bliver det bl.a. en udfordring at finde frem til udestående handlinger.

Dubletter opstår tit på baggrund af, at forskellige afdelinger sidder inde med forskelligartede informationer omkring en datapost. Afdelinger som salg, økonomi, logistik og marketing kan alle have deres egne datasæt, der viser bestemte karakteristika ved en kunde. Økonomiafdelingen ved bl.a., hvordan og hvornår kunden har betalt for et produkt, salgsafdelingen ved, hvad kunden er interesseret i, logistik ved, hvornår produktet blev sendt ud og marketing ved, at kunden benyttede en rabatkode på et produkt efter en bestemt e-mail-kampagne. Disse oplysninger kan, for den enkelte afdeling, virke tilstrækkelige – men det er de ofte ikke. De forskelligartede datasæt vil resultere i afdelinger, der arbejder i hver deres retning. Manglen på ensartede datasæt kan i sidste ende føre til forretningsrelaterede problemer.

2) Ineffektivitet

En anden udfordring, du kan støde på, omhandler ineffektivitet. I nutidens interaktive forretningsverden indsamler vi kundedata fra en lang række datakilder, og når alle touch points med kunderne ikke er samlet i én post, skaber det forvirring, og gør det svært for brugerne at arbejde effektivt med dataene. Dubletter af data skaber bl.a. tvivl om, hvilke data der er mest korrekte. Dermed skabes der mistillid til data og systemer, og der kan desuden opstå irritation hos brugerne af dataene.

Det er tidskrævende at finde frem til den korrekt data, og i sidste ende sænker det produktiviteten i virksomheden. Når dårlige data først er kommet ind i systemet, kræver det meget arbejde at neutralisere de negative effekter af det.

3) Nedsat brug af systemer

Datatillid spiller en stor rolle i, hvordan ens medarbejdere bruger forretningssystemerne. Dit CRM og andre datastyringssystemer kan være det bedste med brugervenlig og intuitiv funktionalitet, men hvis systemet er fyldt med duplikatdata, vil brugerne hurtigt få øje på det, og det kan lede til yderligere frustration og ineffektivitet hos medarbejderne. Derfor vil medarbejderne søge mod alternative løsninger – såsom at opbevare sine data i Excel, så andre afdelinger ikke kan påvirke den – til gengæld får de andre afdelinger ikke glæde af indsigterne i dataene.

4) Negativ indvirkning på virksomhedens omdømme

Ved at forsømme sine datas helbred, forsømmer man på samme tid sin virksomheds sundhed. Kunder er en essentiel del af ens forretning. Ved at forbedre kvaliteten af dataene, de modtager, maksimerer man effektiviteten af ​​sin kommunikation og bygger på sit omdømme i markedet.

Hvis ens data indeholder dubletter, måske med forskellige dataværdier, risikerer man nemlig, at forskellige afdelinger kommunikerer med den samme kunde gennem forskellige kanaler – muligvis på baggrund af forskelligartede data. Det kan give et billede af virksomheden som værende uprofessionel.

5) Misser salgsmuligheder

At kunne bruge sine data effektivt ifm. salg er vigtigere end nogensinde. Hvis marketingaktiviteter, salgskontakter, licenser og kontrakter er registreret på forskellige dataposter, så er chancen for at få et helhedsbillede, opspore salgsmuligheder og opbygge en god salgsstrategi meget lille.

Det er f.eks. langt nemmere at identificere muligheder for kryds- og upselling på baggrund af komplette data og dermed også nemmere at skabe et holdbart kundeforhold.

6) Ukorrekte rapporter og mindre informerede beslutninger

Hvis du planlægger at bruge dine data til at træffe informerede beslutninger og forudsige, hvad du skal gøre for at sikre fremtidig forretningsvækst, skal du sørge for, at dine data er nøjagtige, komplette og frie fra dubletter. Beslutninger baseret på data af dårlig kvalitet er nemlig ikke meget bedre end dem, der træffes på baggrund af mavefornemmelsen.

Opdager man, at data i en rapport er mangelfuld eller ukorrekt, vil man ofte lede efter hurtige genveje for at ”lappe” dataene, hvilket lægger et pres på Data Stewards, som skal fikse den dårlige datakvalitet. Dermed lægges ansvaret på få personer i stedet for at have en langsigtet løsning, som involverer hele virksomheden og deres brug af data.

47% af alle nyoprettede dataposter indeholder mindst én kritisk, arbejdspåvirkende fejl

Kilde: Harvard Business Review

Hvordan skaber man en Golden Record?

Der florerer altså meget store mængder af dårlige data rundt i virksomheder i dag. Man er nødt til at håndtere dette for at ikke risikere sin omsætning og troværdighed. At få Golden Records på sine data er ikke nemt – for så ville alle virksomheder have en. For at få en Golden Record skal data matches, renses og konsolideres. Uden at bruge en Master Data-platform er dette en uendelig opgave - for når ens data endelig er blevet renset, vil de nemlig allerede være blevet forældet, og det kan desuden være svært at bevare overblikket, når data ligger spredt i flere systemer. Benytter man en Master Data Management-platform tilbyder disse systemer at indsamle, konsolidere og sammenligne data på tværs af kilder. Desuden understøtter nogle MDM-platforme funktionalitet til at normalisere og rense de indsamlede data således at sammenligningspotentialet øges. 

Først og fremmest gælder det om at kunne matche data, når en Golden Record skal skabes for at få en korrekt konsolidering. Når data skal matches, er det en fordel at have en unik nøgle, der kan bruges som identifikator. Hvis du f.eks. har et CVR-nummer registreret for dine erhvervskunder, og et givent CVR-nummer findes 6 gange i dine data (typisk på tværs af kilder) – så er der her et potentielt match, og de 6 individuelle erhvervskunder kan slås sammen til én kunde. 

Det er dog ikke alle dataposter, som har de samme referencenøgler – eller måske mangler de helt de unikke referencer, du har valgt. I næste trin for at nedbringe dubletter kan du prøve at finde et match potentiale ud fra datafelter, hvis indhold ”ligner” hinanden. Det kan vi for nu kalde ”Fuzzy” match. Ved Fuzzy match sammenlignes data, som næsten er identiske – dvs. værdierne ligner hinanden, men er ikke 100% ens. Der kan bl.a. være forskellige måder at stave på, der kan være stavefejl eller forskellige formater. Et eksempel på, hvor der ikke er et 100% match, men hvor fuzzy match med høj sandsynlighed finder et så godt som match, er casper.elkjaer@initech.com og cassper.elkjaer@initech.com. De er stort set ens, men uden at være det 100%.

Et fuzzy match stiller større krav til kvaliteten af de enkelte datafelters indhold for at undgå, at der potentielt set sker et forkert match. Og typisk tages flere felter i betragtning i sammenligningsgrundlaget for et fuzzy match. Hvis du f.eks. vil matche privatkunder uden at bruge CPR-nummer som unik nøgle, kan du evt. sammenligne fornavn, efternavn og adresse og for de kunder, hvor disse datafelters indhold er ”næsten ens”, har du et potentielt match. Fuzzy er et godt supplement til unikt match, men introducerer også større risiko for at få sammenlagt data forkert. Et eksempel på et datafelt, hvor alt for aggressiv fuzzy matching kan ske, er fornavne. To fornavne kan være så ens, at en algoritme isoleret set kan betragte dem som værende næsten ens, hvis de ikke står i relation til øvrige datafelter på din golden record. Så hvis f.eks. Tim og Tom står alene i et fuzzy match, er der sandsynlighed for, de bliver betragtet som én. Nogle ville måske hurtigt konkludere, at de ikke er ens, men algoritmerne er ikke klogere, end vi gør dem til, og derfor er det vigtigt at arbejde med så mange datafelter i spil som muligt - og desuden indføre nogle toleranceniveauer for match.

Efter det unikke match ud fra nøgler og et givent fuzzy match, står du muligvis stadig med et sæt dubletter, som skal håndteres manuelt – muligvis helt uden du ved det. Derfor er støttelister over mulige dubletter i data en god hjælp til at identificere dem. Her handler det om at finde enkelte datafelter og mulige sammenhænge i data, som du tror kan være identiske.

Både det unikke nøgle match og fuzzy match stiller krav til datas kvalitet, så derfor kan det være en god idé at normalisere jeres datafelter, så de har ens formater mv. Desuden er det essentielt, at I har gode rutiner og medarbejdere, der hele tiden validerer og renser jeres data for at forbedre sammenligningspotentialet. Dette kommer vi mere ind på i nedenstående afsnit. 

Sammenstilling og konsolidering – hvilken information ”vinder”?

Dubletter i data skal sammenstilles og konsolideres til én Golden Record, som vi var inde på i forrige afsnit. Dubletter har ofte forskelligt indhold i datafelter, hvilket enten skyldes, de er indtastet forkert på forskellige tidspunkter, eller også er de ikke blevet opdateret med nyere data. Når dataposter slås sammen, skal det derfor overvejes, hvilket indhold i datafelterne, der er de mest korrekte - dvs. de “vindende” informationer, som bliver en del af den konsoliderede Golden Record. Der er flere måder, hvorpå I kan udvælge de ”vindende” informationer, og her er et par eksempler;

Én pålidelig kilde; I kan vælge at lade ét bestemt kildesystem værende styrende. F.eks. kan CRM systemet vælges for kundeoplysninger. Det betyder, at uanset hvilket indhold der måtte være indtastet i datafelterne i de andre systemer, vil det være CRM-systemets indhold, der fastholdes, når data konsolideres. Denne metode flytter ansvaret for korrekte kundedata over på dataejer for CRM og de medarbejdere, der i dagligdagen anvender og opdaterer CRM-systemet. 

Datostyring; Hvis I vælger datostyring til udvælgelse af de vindende informationer, betyder det, at den kilde, der leverer data med nyeste dato, bliver prioriteret. Datostyringen kan enten gøre sig gældende for hele Golden Records datafelter eller felt for felt. Et eksempel på datostyring for hele Golden Record’s datafelter: En kunde er oprettet i CRM og ERP hvor seneste dato i CRM er 1-dec-2021 og seneste dato i ERP er 15-dec-2021. Ved konsolidering af de 2 kundedatasæt, bliver det ERPs indhold i alle datafelterne, der vinder. Modsat eksempel; hvis datostyring er gældende felt for felt, hvor kundenavn i CRM har seneste ændringsdato for 16-dec-2021 og i ERP 1-jan-2022 samt adressen i CRM har seneste ændringsdato 16-dec-2021 i ERP 1-dec-2021, vil det være kundenavn fra ERP og adresse fra CRM, der bliver vindende ved konsolidering af de 2 kundedatasæt. For denne metode vil ansvaret for korrekte kundedata være delt mellem dataejere for CRM og ERP og de respektive medarbejdere, der anvender de 2 systemer.

Uanset metode, stiller det krav til datas kvalitet samt medarbejdernes fokus på hele tiden at holde systemerne opdaterede med nyeste information. 

Rens og berigelse af data øger sammenligningspotentialet

En måde at øge sandsynligheden for, at dubletter kan identificeres, og data sikkert kan konsolideres  er både at rense data for fejl og mangler og berige data med flere informationer. Fejl kan f.eks. være stavefejl og forskellige formater, som gør, at dataene ikke matcher. Mangler kan f.eks. være et mellemnavn eller postnummer på adresser mv. Datarens kan være en omstændig og tidskrævende opgave, og mange virksomheder nedprioriterer det i dagligdagen, men uanset hvad – en vigtig faktor i skabelsen af din Golden Record! 

Manglende data kan også gøre det udfordrende at matche data, og det kan derfor være en hjælp f.eks. at berige dine kundedata med informationer fra CVR-registreret. Herfra kan du hente yderligere informationer omkring dine erhvervskunder og endda måske få mere korrekt opdateret data, som skal være med til at øge kvaliteten og sammenligningspotentialet på tværs. Berigelse kan også ske ved f.eks. opslag af jeres medarbejdere eller privatkunder i CPRs registerdata; dog med det forbehold at jeres interne GDPR-retningslinjer er på plads. 

En sidste mulighed for at øge sammenligningspotentialet er at indføre nogle normaliseringsregler. Til normalisering af adressedata kan Dawa f.eks. anvendes. Her valideres jeres adresser og kan Dawa genkende adressen, I kommer med, kan I vælge at få returneret adressen i et standardformat. Derved får allerede jeres adressedata samme format og blive ensartet. Normalisering af navne kan også med fordel indføres, således I sikrer, at for-, mellem- og efternavn altid står i samme format, hvilket også øger fuzzy match-potentiale, hvis jeres algoritme er case-sensitive.

Måden hvorpå du kommer frem til din Golden Record kan være mere eller mindre automatiseret, og nogle MDM-platforme har indbygget funktionalitet, der understøtter jeres dataindsamling, validering, match, konsolidering, berigelse samt datarens i større eller mindre omfang. 

Del på

Andre blogindlæg du måske vil finde spændende

Responsible AI

22. juni 2022|

Dette blogindlæg tager dig igennem tre vigtige fokusområder om etik og ansvarlighed i AI-løsninger. AI/Kunstig intelligens [...]

2022-02-24T12:22:48+01:00