Data lineage — pojmy a praxeData lineage: sledování původu dat od zdroje k reportu
Klíčové pojmy okolo data lineage — od column-level lineage přes impact analysis, OpenLineage standard a integraci s data catalog až po compliance a root cause analysis.
Co je data lineage
Data lineage zachycuje cestu dat od zdrojového systému přes všechny transformace (ETL/ELT, SQL, dbt modely, Spark joby) až po koncový report nebo ML feature. Umožňuje odpovědět na otázky „odkud tato hodnota přišla", „kdo ji změnil" a „co se rozbije, když změním tento sloupec". Bez lineage je každá změna ve schématu rizikem.
Table-level vs column-level lineage
Table-level ukazuje závislosti mezi tabulkami — užitečné pro hrubý přehled. Column-level (field-level) sleduje konkrétní sloupce skrz transformace — nezbytné pro GDPR, impact analysis a debugging. Moderní nástroje (dbt docs, OpenLineage, Manta, Atlan, Collibra, Alation, Datafold) parsují SQL/Spark AST a column-level lineage generují automaticky.
OpenLineage a standardy
OpenLineage je open-source standard pro sběr lineage událostí napříč nástroji — Airflow, Spark, dbt, Flink, Great Expectations. Marquez je referenční backend. Konkurenční specifikace: OpenMetadata, egeria. Standardizace umožňuje cross-tool lineage bez vendor lock-in a integraci s data catalog (DataHub, Amundsen).
Impact analysis — co se rozbije
Impact analysis (downstream) odpovídá: „když odeberu tento sloupec, které dashboardy, reporty, ML modely a API to rozbije?" Reverse impact (upstream): „odkud pochází hodnota v tomto KPI?" Bez automatizovaného lineage stojí tato analýza dny manuální práce — s ním minuty a s vysokou přesností.
Lineage v dbt a ELT světě
dbt automaticky generuje DAG a lineage graf z `ref()` a `source()` makra. dbt docs zobrazí interaktivní lineage. Pro pokročilé scénáře (cross-project, mezi dbt a BI) se napojí Datafold, Castor, SELECT.dev. Lineage z dbt je základem pro CI testy, blast radius analýzu PR a smart re-runy jen dotčených modelů.
Lineage v BI a reporting vrstvě
Power BI, Tableau, Looker a Metabase mají vlastní lineage uvnitř (dataset → measure → report). Cross-tool lineage z warehouse přes semantic layer do dashboardu vyžaduje integraci (Atlan, OpenMetadata, Power BI lineage view, Looker content validator). Bez ní změna ve zdroji tiše rozbije produkční dashboardy.
Lineage a GDPR / compliance
GDPR a CCPA vyžadují prokázat, kde se osobní údaje nacházejí (data mapping), kdo k nim má přístup a jak proudí. Column-level lineage automatizuje Article 30 Records of Processing, DPIA i právo na výmaz (kde všude smazat). Stejně tak SOX, BCBS 239 a HIPAA explicitně požadují auditovatelný data flow.
Root cause analysis a debugging
Když dashboard ukazuje špatné číslo, lineage umožní rychle zpětně projít transformace, najít poškozený upstream zdroj nebo chybnou business logiku. V kombinaci s data observability (Monte Carlo, Bigeye, Soda) vzniká uzavřená smyčka: anomálie → lineage → root cause → fix → ověření.
Integrace s data catalog
Lineage bez kontextu (popisy, vlastníci, klasifikace, kvalita) má omezenou hodnotu. Moderní data catalogy (DataHub, Atlan, Collibra, Alation, OpenMetadata, Unity Catalog, Microsoft Purview) lineage zobrazují vedle metadat, glossary, ownership a DQ skóre — vznikne jeden zdroj pravdy pro data team i konzumenty.
Automatické vs manuální lineage
Manuální lineage v Excelu nebo Confluence zastará během týdnů. Automatické (parsing SQL, AST, runtime hooks) je vždy aktuální. Hybridní přístup: auto-discovery + manuální anotace business kontextu (proč tato logika existuje, vlastník KPI). Cíl: 100 % technické pokrytí + business-level mapování pro top reporty.
Lineage pro ML a feature stores
V ML pipeline lineage spojuje raw data → feature engineering → training dataset → model verze → prediction. Bez něj nelze reprodukovat model, vysvětlit predikci nebo splnit EU AI Act. Nástroje: MLflow, Feast, Tecton, Vertex AI Lineage, SageMaker Lineage. Klíčové pro model governance a auditovatelnost.
Jak začít s data lineage
Postup: 1) inventura kritických data assets a top 20 reportů, 2) volba nástroje (open-source OpenLineage/DataHub vs komerční Atlan/Collibra), 3) napojení hlavních zdrojů (warehouse, dbt, Airflow, BI), 4) column-level pro PII a regulované oblasti, 5) integrace s CI/CD a alerting, 6) postupné rozšíření na celý stack a adopce mezi byznysem.