Data Vault 2.0 – Řešení pro agilní datové sklady s nároky na rychlost a kvalitu

Odjakživa platilo: ukládejte jen ta data, která mají větší hodnotu než úložiště. Jinými slovy nemá smysl draze ukládat bezcenná data. V současném světě ale hodnota úložišť a cena za zpracování dat poklesly natolik, že si můžeme dovolit sbírat všechna data, ukládat je v jejich původní podobě a historizovat je bez velkých rozpočtových nároků.

Ukazuje se, že většina dat má dříve nebo později hodnotu, ale ne vždy si ji na začátku budování skladu uvědomujeme.

Pořád ale platí, že některá data, respektive způsoby jejich uložení a zpracování, nás mohou stát více než jiná. Proto dnes úspěšné agilně řízené firmy hledají způsoby, jak data uchovávat s ohledem na jejich aktuální i možnou budoucí hodnotu. Právě ony čím dál častěji staví datové sklady na principech data vault.

Ukládat totiž všechna data do klasické relační databáze, může být poměrně drahé a nerozumné. Obzvlášť v případě dat, u kterých ještě nevíme, jak a jestli vůbec je budeme využívat. Taková data (strukturovaná i nestrukturovaná a v různých formátech) je lepší uložit do tzv. data lake, odkud se teprve dostávají netransformovaná do vrstvy raw data vault.

Hlavním rozdílem data vault oproti tradičnímu Kimballovu nebo Inmonovu přístupu je striktní oddělení jedinečných klíčů byznys entit a jejich atributů. Jde v podstatě o oddělení raw data úrovně a byznys úrovně.

Toto nastavení slouží k tomu, aby správa dat byla jednoduchá a aby nevznikaly komplikace při pozdějších změnách datového modelu (což se často děje při překotném růstu firmy nebo projektu). Zároveň umožňuje historizaci dat a jejich rychlé paralelní zpracování.

Ukládat data podle metodologie data vault je výhodné i z hlediska licenčních nákladů relační databáze. Díky data vault můžeme veškeré potřebné výpočty a transformace dat vykonávat pohodlně mimo databázi (např. prostřednictvím Apache Spark). Do databáze pak nahráváme už zpracovaná data a využíváme ji jen ve chvíli, kdy to skutečně potřebujeme (tzn. šetříme licenční poplatky.)

V případě, že zpracování dat zůstává v databázi, tak například u Oracle se cena licence počítá na základě počtu přístupných jader procesoru. Často tak dochází k situaci, že počet procesorů se počítá na noční zpracování, aby například od 0:00 do 6:00 se stihlo vše zpracovat. Následně mohou být tyto procesory celý den nevyužité, protože mají řádově vyšší výkon, než je potřebný pro běžné dotazy pro aplikace. Zpracování mimo DB můžeme následně využívat výrazně levnější licence, které jsou pro dotazování dostatečné.

Data vault je jednoduše řečeno jeden z prostředků data governance, systematické správy dat, který skvěle funguje nejen pro budování data warehouse, ale i pro machine learning a statistické nebo jiné datové analýzy.

V dnešní době je pro každou firmu (a zejména ty rychle rostoucí) zásadní uvědomit si, že to nejcennější, co má, jsou data.

Čím dřív si to firma uvědomí a nastaví si data governance, tzn. začne o svá data pečovat, tím dřív přestane data ztrácet nebo ukládat a zpracovávat zbytečně draze. Metodika, jako je data vault, od začátku určuje, co s daty děláme, jak se k nim chováme, jak je historizujeme, organizujeme, jakou mají strukturu a proč.

Vybrat si metodu zpracování dat a aplikovat ji jsou ovšem dvě různé věci. Aby byla realizace data warehouse hladká a rychlá, je třeba mít aplikační know-how a rozsáhlé zkušenosti.

V CEOS Data je máme, a tak našim klientům můžeme nabídnout celou škálu služeb od konzultačního poradenství v oblasti data governance až po kompletní vystavění datového skladu od nuly na principu data vault.

Za CEOS Data, Pavol Zemaník, CIO