Lakehouse — pojmy a architekturaData Lakehouse: spojení flexibility data lake a výkonu data warehouse
Klíčové pojmy okolo lakehouse architektury — od Delta Lake, Iceberg a Hudi přes medallion architekturu, ACID transakce a time travel po srovnání s warehouse a data lake.
Co je data lakehouse
Lakehouse je architektura, která kombinuje levné, škálovatelné úložiště data lake (S3, ADLS, GCS) s ACID transakcemi, schema enforcement, governance a SQL výkonem data warehouse. Eliminuje nutnost duplikovat data mezi lake (pro data science) a warehouse (pro BI) — jeden zdroj pravdy pro všechny use cases.
Lakehouse vs warehouse vs lake
Data warehouse (Snowflake, BigQuery, Redshift) = strukturovaná data, vysoký výkon SQL, drahé úložiště. Data lake (S3 + Parquet) = levné, libovolný formát, ale bez ACID a slabý výkon. Lakehouse (Delta, Iceberg, Hudi) = nejlepší z obou: levné object storage + ACID + výkon. Vhodný pro BI, ML i streaming zároveň.
Delta Lake — Databricks open-source format
Delta Lake přidává nad Parquet ACID transakce, time travel, schema enforcement & evolution, MERGE/UPSERT, change data feed, Z-ordering a OPTIMIZE/VACUUM. Tightly integrovaný s Databricks a Spark, ale podporovaný i v Trino, Presto, Flink, Snowflake (Iceberg interop). Nejvyzrálejší formát s nejširší adopcí.
Apache Iceberg — open table format
Iceberg (Netflix, Apple, Apple, AWS) je vendor-neutrální table format se silným engine podporou: Spark, Trino, Flink, Snowflake, BigQuery, Athena, Dremio. Klíčové vlastnosti: hidden partitioning, schema evolution bez rewrite, snapshot isolation, branching & tagging, expire snapshots. Stává se de-facto standardem pro multi-engine lakehouse.
Apache Hudi — streaming-first format
Hudi (Uber) je optimalizovaný pro upserts a incremental processing s nízkou latencí. Nabízí dva storage typy: Copy-on-Write (CoW, optimální pro čtení) a Merge-on-Read (MoR, optimální pro zápis). Hudi má vestavěnou Change Data Capture (CDC) podporu, kompakce a built-in clustering. Vhodný pro near-real-time pipeline.
Medallion architektura — Bronze, Silver, Gold
Vrstvená lakehouse organizace: Bronze = raw data 1:1 ze zdrojů (audit, replay), Silver = vyčištěná, normalizovaná, enrichovaná data (business-ready), Gold = agregované business marty a feature tabulky pro BI a ML. Každá vrstva má jasná SLA, ownership a kvalitu. Doporučená praxe pro většinu lakehouse implementací.
ACID transakce a izolace
Lakehouse formáty řeší klasický problém data lake — concurrent writes bez korupce. Snapshot isolation umožňuje současné čtení a zápis bez locků. MERGE INTO podporuje UPSERTy a SCD Type 2. Optimistic concurrency control detekuje konflikty při commitu. Výsledek: spolehlivost warehouse na levném object storage.
Time travel a auditovatelnost
Time travel umožňuje dotazovat historický stav tabulky podle verze nebo časové známky (SELECT ... AS OF VERSION 12). Klíčové pro audit, GDPR investigation, reprodukci ML experimentů, rollback chybných deploymentů a backfill. Konfigurovatelná retence (typicky 7–90 dní) balancuje storage cost vs operační flexibilita.
Schema evolution a enforcement
Schema enforcement odmítne zápis dat neodpovídajících schématu (žádné silent corruption). Schema evolution povolí kontrolované změny (ADD COLUMN, RENAME, type widening) bez rewrite celé tabulky. Klíčové pro dlouhodobé pipeline a měnící se business požadavky. Bez toho končí každý schema change v boji s legacy daty.
Performance — Z-ordering, clustering, partitioning
Optimalizace lakehouse: partitioning podle low-cardinality sloupce (datum), Z-ordering / liquid clustering pro multi-column locality, OPTIMIZE/compaction pro slučování malých souborů, VACUUM pro mazání starých verzí, statistics pro query planner. Bez údržby výkon degraduje — automatizujte v Airflow/dbt/Databricks Jobs.
Unity Catalog a governance
Lakehouse vyžaduje centrální governance: katalog (tabulky, views, modely, files), oprávnění (RBAC, ABAC, row/column-level security), lineage, audit log, data classification a discovery. Databricks Unity Catalog, AWS Glue + Lake Formation, Microsoft Purview, OpenMetadata. Bez governance se lakehouse změní v nepřehledný data swamp.
Kdy zvolit lakehouse vs warehouse
Lakehouse vyhrává když: máte velký objem semi-strukturovaných dat (logs, events, IoT, JSON), kombinujete BI + ML + streaming, chcete open formát bez vendor lock-in a optimalizujete cloud cost. Warehouse stačí když: pouze strukturovaná data, hlavně BI, malý objem a chcete maximální jednoduchost. Mnoho firem kombinuje obě architektury.