Er datakatalog løsningen for digitalisering av datavarehus?

Problemet med datavarehus er at de krever mye arbeid, tar lang tid å lage og det kun er et begrenset utvalg av mennesker som har kontroll på innholdet. Med den sterke økningen i data som nå skjer, er dette en farbar vei fremover?

data_catalog.png

Flere tiår med utvikling av datavarehus har gitt oss rimelig god styring og kontroll på dataene som ligger der. Problemet med datavarehus er at de krever mye arbeid, tar lang tid å lage og det kun er et begrenset utvalg av mennesker som har kontroll på innholdet.

Med større tilfang av data, bedre og flere verktøy, samt flere brukere med store forventninger til tilgang på data settes datavarehus og BI-løsninger under press.

Metadata er nøkkelen til å automatisere governance

Spørsmålet er, hvordan skal en klare å dekke disse nye behovene? En løsning på dette er å ha god håndtering av metadata. Metadata er «data om data». Uten metadata er data mindre verdt og det tar lang tid å forstå innholdet.

Kontroll i datavarehus-løsningen handler ofte om at fagpersoner eller ETL-team kjenner dataen og kildene, da de har vært med å bygge dette. Dokumentasjon, i den grad dette finnes, er ofte vanskelig å ha tilgjengelig og krevende å holde oppdatert. Et slikt opplegg fungerer ikke lengre.

For å tilfredsstille nye forventninger er en avhengig av å kunne få med metadata fra kildene. Dette blir en ny utfordring. Flytting av data er relativt enkelt, til og med store datamengder kan flyttes veldig raskt. Men å flytte data sammen med all tilhørende metadata er noe helt annet.

Når en lykkes med dette vil en ha kapasitet til å tilrettelegge en større del av den totale mengden data som er tilgjengelig.

Datakatalog - Digitalisering av dokumentasjon

Det er mulig å automatisere innhenting av metadata ved hjelp av verktøy som betegnes som «data catalog». Disse verktøyene jobber seg gjennom metadata i kildesystemer og ser på dette sammen med datamodellen. Denne informasjonen kobles deretter sammen med informasjon fra faktisk bruk.

Dette forenkler prosessen med å tilrettelegge data, uansett om det er til datavarehus, «datalake» eller data i andre former. Metadata-innhentingen blir dermed digitalisert. Tidligere har dette blitt gjort som manuelle prosesser, i den grad det er gjort i det hele tatt.

Datakatalog er et begrep som har vært tilstede i lang tid. Min opplevelse er at denne nå hentes frem og gjøres til en sentral komponent for å lykkes på veien mot å bli «datadrevet». Forretningsbehovet for datakatalog er tilstede, men det krever en kulturendring av organisasjonen for å ta ut gevinster.

For å lykkes er det avgjørende å ha tilgang til kompetanse på hvordan en datakatalog skal struktureres. Jeg mener det fortsatt er en vei å gå før en slik løsning er komplett, men leverandørene er i gang med å videreutvikle sine produkter og markedet er i gang med å etablere løsninger.

Hvordan man kan starte vil jeg komme tilbake til i min neste blogg.

Er du interessert i lære mer om konseptet datakatalog, ta kontakt!

 
zachariassen_paal_WRB3150_webHQ.jpg

OM FORFATTEREN

Pål Zachariassen
Manager