Dátová kvalita

O čo ide
Fráza "Garbage in, garbage out" vystihuje podstatu veci. Ak počítač nakŕmime zlými údajmi, výstup bude tiež zlý. A zlý výstup znamená v konečnom dôsledku finančné straty či už pre zaslanie tovaru na nekorektnú adresu, rozhodnutie založené na zlých údajoch, alebo prakticky neodhadnuteľné náklady pri integrácií systémov s dátovými konfliktami.
Samozrejme, dátovou kvalitou sa zaoberá každý systém, implicitne bez toho aby deklaroval "a teraz riešim dátovú kvalitu". Každý systém robí kontroly vstupných dát, má vnútorné mechanizmy pre šetrenie nekorektných dát a často aj výstupné kontroly vo forme rôznych konsolidačných reportov, testovacích košov a podobne.

V súčasnosti to však už nestačí. Čím viac dát, čím väčšia integrácia a automatizácia, čím sofistikovanejšie nástroje na získavanie znalostí z dát (data mining), tým menšia možnosť ľudskej kontroly. Nároky na kvalitu dát stúpajú, a od určitého momentu už nie je efektívne riešiť ich "po svojom".
Logické vyústenie je rastúci záujem o dátovú kvalitu. Riešenie je dvojica metodika-nástroj. Metodika nám hovorí ako postupovať, nástroj nám pomáha metodiku uplatniť.

Metodika riešenia dátovej kvality, a jej úskalia
Hlavné motto metodiky je nasledovné: "Dáta sú najhodnotnejším majetkom podniku, musíme poznať ich stav a musíme sa o ne starať". A priamo v motte sa ukrýva jedno z najväčších úskalí: niekto sa musí o dáta starať a to v zmysle starať sa o správny obsah. A to je problém, nakoľko podniky sú vnútorne rozdelené podľa činností, popr. podľa regiónov a neexistuje pozícia, resp. technológia, z ktorej by bolo možné riešiť napr. konfliktné údaje o tom istom zákazníkovi evidované v rôznych oddeleniach a systémoch. Snaha o zavedenie centralizovaných organizačných štruktúr a zodpovedností orientovaných na dáta našla svoju podobu vo forme Data Governance a na technickej úrovni vo forme Master Data Management. Obe sú pomerne nové oblasti, ktoré napredujú ruka v ruke s Data Quality.

Čo je to vlastne kvalita dát

Táto otázka je ukrytá v motte: "...poznať stav dát...". Keď dokážeme zodpovedať túto otázku, spolovice sme vyhrali. Nekvalita dát je to, čo spôsobuje straty. Ak máme v systéme adresu, na ktorú doručovateľ nevie doručiť tovar, je to nekvalitný údaj. Ak máme v systéme chybné rodné číslo zákazníka, ale klienta identifikujeme pod jeho zákazníckym číslom, nemusíme to považovať za nekvalitný údaj. Kvalita dát je daná ich použitím. Dáta sa nedajú posudzovať len tak, sami o sebe.

Kvalita dát je vec business

Zadefinovanie kvality dát musí vychádzať z businessu podniku. Ten je veľmi špecifický a pozná ho predovšetkým zákazník. Kvalitu dát musí definovať business človek zákazníka, nie dodávateľ riešenia, ani technológ. Samozrejme, dodávateľ vie zo svojich skúseností poradiť. Táto skutočnosť môže byť v rozpore s očakávaním zákazníka, totiž že dodávateľ sa pozrie na dáta a vyčistí ich sám od seba .

Definovanie kvality dát môže mať veľa podôb, a nespočíva len v kontrole vyplnenosti alebo formátu. Ako príklady možno uviesť:

  • detekcia duplicitne zadaných zákazníkov
  • business konzistencia dát, napríklad súhlasiace krížové súčty
  • očakávané štatistické počty (počty zákazníkov podľa geografického členenia, podľa zamestnania, atď.)
  • splnenie business pravidiel - napríklad stav objednávky vs. prítomnosť platby

Pri riešení kvality dát je nutné určiť efektívnu hranicu: čo riešiť, a čo nie. Ak napríklad nesúhlasí výška faktúry so súčtom jej položiek, alebo faktúra referuje neexistujúce zákaznícke číslo, rozhodne je to nesprávny údaj s negatívnym dopadom. Na druhej strane treba zvážiť náklady na detekciu takéhoto defektu a pravdepodobnosť výskytu. Ak údaje o faktúre generuje overený systém a referencie sú strážené databázou, neoplatí sa zaťažovať systém zbytočnými kontrolami. Riešiť treba len to, čo reálne spôsobuje straty, inak sú to vyhodené peniaze.
Z tohto dôvodu sa nástroje na dátovú kvalitu v súčasnosti sústreďujú na údaje zadávané do systému človekom, ktoré v momente zadávania nie je možné jednoznačne skontrolovať a to sú typicky údaje o zákazníkoch. V konečnom dôsledku sú to dve notoricky známe aplikácie dátovej kvality:

  • detekcia duplicitne zadaných zákazníkov
  • čistenie adries

Tieto aplikácie sa v podstate opierajú o sémantickú analýzu dát (parsovanie adresy na ulicu, mesto, PSČ, mena na oslovenie, meno, priezvisko, titul) a o predpripravené zoznamy adries a mien pre danú krajinu, ktoré spolu tvoria tzv. Quality Knowledge Base - súbor národných dát a pravidiel pre kontrolu a čistenie dát.

Riešenie nie je jednorázové vyčistenie dát

V rozpore s častým očakávaním zákazníka, riešenie kvality dát nie je o jednorazovom spustení čistiaceho procesu, po ktorom v databáze ostanú čisté dáta. Riešenie kvality dát pozostáva:

  • v nasadení mechanizmov zabraňujúcim vstup nekorektných dát do systému, resp. mechanizmov, ktoré opravujú vstupujúce dát
  • zaintegrovaní týchto mechanizmov do existujúcich aplikácií, aby bol napríklad užívateľ upozornený že zadáva potenciálne existujúceho zákazníka
  • v nasadení priebežného monitorovania kvality dát v systéme
  • neustálom ladení a prispôsobovaní týchto mechanizmov meniacim sa požiadavkám

Riešenie kvality dát je teda permanentná záležitosť.

Technologická náročnosť

Predovšetkým detekcia duplicitne zadaných zákazníkov je pomerne náročná na zdroje. V súčasnosti je riešená matematickým aparátom generujúcim tzv. match codes alebo matching keys, čo sú pomyselné odtlačky prsta zákazníckych dát generované z rôznych identifikačných údajov. Match codes sa následne porovnávajú medzi sebou a hľadajú sa podobnosti - technicky je to cross join miliónov záznamov.
Sémantická analýza dát, napr. pri parsovaní poľa v ktorom je zadané meno aj adresa, je sofistikovaný proces, ktorý vyžaduje definovanie komplexných gramatík a nastavenie správnych pravdepodobností zohľadňujúcich špecifiká daného regiónu (napríklad spodobovanie hlások, obmeny Švarc a Schwarz, variácie na názov Nové Mesto n. Váhom, a podobne).

Záver
Riešiť dátovú kvalitu je nutnosť. Dátová kvalita sa už teraz rieši v každom výpočtovom systéme, svojím spôsobom. Vyššiu úroveň je však možné dosiahnuť len koncepčným riešením - pomocou metodiky, ktorej témou sú dáta a ich kvalita a nástroja na to určeného. Od dosiahnutia tejto úrovne závisí reálna hodnota, ktorú z dát, a teda z našich systémov, vieme získať.

Dáta sú tým najcennejším prvkom v IT, a starostlivosť o ich kvalitu je permanentná záležitosť.