Lakehouse vs Hurtownia danych: Porównanie

Kontext: warehouse, lake, lakehouse

Tři generace analytického storage:

Data warehouse (90. léta–dnes) — strukturovaná data, SQL, BI. Teradata, Oracle, dnes Snowflake/BigQuery.
Data lake (2010+) — raw soubory v S3/HDFS, levný storage, vhodný pro ML, ale slabá governance a "data swamp".
Lakehouse (2020+) — kombinace: levný object storage + transakční vrstva (Delta, Iceberg, Hudi) přidává ACID, schema evolution a time travel.

Detailní srovnání warehouse vs lake máme v guide Data Warehouse vs Data Lake. Tento guide se zaměřuje na warehouse vs lakehouse.

Co je cloud data warehouse

Cloud data warehouse je managed SQL platforma optimalizovaná pro analytické dotazy nad strukturovanými daty. Kombinuje proprietární sloupcový storage, MPP execution engine a governance vrstvu.

Hlavní hráči: Snowflake, Google BigQuery, AWS Redshift, Azure Synapse. Srovnání platforem najdete v Snowflake vs BigQuery.

Silné stránky: výkon, jednoduchost provozu, vyspělá governance a time travel, široký BI ekosystém.

Co je lakehouse

Lakehouse je architektura, která přidává transakční vrstvu (Delta Lake, Apache Iceberg, Apache Hudi) nad levný object storage (S3, ADLS, GCS). Výsledek: jedna kopie dat slouží jak BI, tak ML/AI.

Hlavní implementace:

Databricks — referenční lakehouse, Delta Lake + Unity Catalog + Photon SQL.
Iceberg + Trino/Snowflake/Spark — vendor-neutral, Iceberg dnes podporuje Snowflake, BigQuery, Athena, Databricks, Dremio.
Microsoft Fabric / OneLake — lakehouse postavený nad Delta Parquet, integrace s Power BI.

Vzor medallion (bronze/silver/gold) je dnes de-facto standard.

Srovnání

Klíčové rozdíly v jedné tabulce:

Kritérium	Cloud Data Warehouse	Lakehouse
Příklady	Snowflake, BigQuery, Redshift	Databricks, Iceberg/Trino na S3
Storage	Proprietární sloupcový	Otevřené formáty (Parquet + Delta/Iceberg)
Compute	Vázaný na storage	Oddělený, vyměnitelný (Spark, Trino, DuckDB)
Typy dat	Strukturovaná, semi-strukturovaná	Strukturovaná, semi i nestrukturovaná
BI výkon	Excelentní	Velmi dobrý (od Photon/SQL Warehouse)
ML/AI workloady	Omezené (přes externí Spark)	Native (Spark, MLflow, Unity Catalog)
Vendor lock-in	Vyšší (proprietární formát)	Nižší (otevřené formáty)
TCO pro BI-only	Nižší — méně ops	Vyšší — potřeba ladění Spark
TCO pro BI + ML	Vyšší — duplikace dat do Spark	Nižší — jeden zdroj pravdy
Governance	Vyspělá (Snowflake Horizon)	Vyspělá (Unity Catalog, Lake Formation)
Time-to-value	Týdny	Měsíce

Příklady

Cloud Data Warehouse: Snowflake, BigQuery, Redshift
Lakehouse: Databricks, Iceberg/Trino na S3

Storage

Cloud Data Warehouse: Proprietární sloupcový
Lakehouse: Otevřené formáty (Parquet + Delta/Iceberg)

Compute

Cloud Data Warehouse: Vázaný na storage
Lakehouse: Oddělený, vyměnitelný (Spark, Trino, DuckDB)

Typy dat

Cloud Data Warehouse: Strukturovaná, semi-strukturovaná
Lakehouse: Strukturovaná, semi i nestrukturovaná

BI výkon

Cloud Data Warehouse: Excelentní
Lakehouse: Velmi dobrý (od Photon/SQL Warehouse)

ML/AI workloady

Cloud Data Warehouse: Omezené (přes externí Spark)
Lakehouse: Native (Spark, MLflow, Unity Catalog)

Vendor lock-in

Cloud Data Warehouse: Vyšší (proprietární formát)
Lakehouse: Nižší (otevřené formáty)

TCO pro BI-only

Cloud Data Warehouse: Nižší — méně ops
Lakehouse: Vyšší — potřeba ladění Spark

TCO pro BI + ML

Cloud Data Warehouse: Vyšší — duplikace dat do Spark
Lakehouse: Nižší — jeden zdroj pravdy

Governance

Cloud Data Warehouse: Vyspělá (Snowflake Horizon)
Lakehouse: Vyspělá (Unity Catalog, Lake Formation)

Time-to-value

Cloud Data Warehouse: Týdny
Lakehouse: Měsíce

Kdy zvolit cloud data warehouse

Primárně SQL BI a reporting (Power BI, Tableau, Looker).
Strukturovaná data z ERP, CRM, e-shopu, výroby.
Tým nemá Spark expertizu a chcete co nejmenší ops.
Rychlý time-to-value — pilot za 4–6 týdnů.
Náročné governance a compliance (Snowflake Horizon).

Kdy zvolit lakehouse

Kombinace BI + ML/AI nad stejnými daty (Spark, MLflow).
Velké objemy semi/nestrukturovaných dat (JSON, IoT, log, obrazy).
Multi-engine přístup — Trino, DuckDB, Spark, Snowflake nad stejnými soubory.
Strategická minimalizace vendor lock-in (otevřené formáty Iceberg/Delta).
Streaming workloady s Kafkou a Spark Structured Streaming.

Náklady a TCO

Storage je u lakehouse výrazně levnější (S3 ~23 USD/TB/měsíc vs Snowflake ~40 USD/TB/měsíc). U compute ale často vychází podobně:

Snowflake účtuje warehouse credity (X-Small ~2 USD/h, scaling automatický).
Databricks SQL Warehouse ~0.55 USD/DBU + cena compute (EC2/Azure VM).
Pro 100 GB BI workload je rozdíl marginal; pro 100 TB BI + ML může být lakehouse 30–50 % levnější.

Skrytý náklad lakehouse: engineering time na ladění Spark jobů, table maintenance (Z-Order, VACUUM), governance.

Migrace mezi nimi

Warehouse → Lakehouse: typicky 6–12 měsíců. Export do Iceberg/Delta na S3, refactor dbt modelů, přesun reportů. Dělá smysl při potřebě ML nebo eliminaci lock-in.

Lakehouse → Warehouse: typicky 3–6 měsíců. Z Iceberg/Delta do Snowflake přes external tables nebo COPY. Dělá smysl, když lakehouse provoz převažuje nad přínosy.

Pro migrace doporučujeme přístup "strangler fig" — nový workload na nové platformě, legacy postupně utlumovat.

Rozhodovací matice

Malá firma, BI only → Snowflake nebo BigQuery (warehouse).
Mid-market, BI + plánujeme ML → Snowflake s Iceberg tabulkami nebo Databricks SQL.
Enterprise, BI + ML + streaming → Databricks lakehouse.
Multi-cloud, anti-lock-in → Iceberg na S3/ADLS/GCS + Trino/Snowflake.
Microsoft stack, Power BI heavy → Microsoft Fabric (lakehouse vrstva nativně integrována).

Často kladené otázky

Je lakehouse rychlejší než warehouse?

Pro klasické BI dotazy je warehouse (Snowflake, BigQuery) typicky o 10–30 % rychlejší. Databricks Photon a SQL Warehouse rozdíl smazávají. Pro ML feature engineering nad velkými daty je lakehouse výrazně rychlejší.

Mohu mít Iceberg tabulky ve Snowflake?

Ano. Snowflake podporuje Apache Iceberg jako "externí" i jako nativní tabulky od 2024. Můžete tak mít jednu kopii dat dostupnou Snowflake, Spark, Trino i Athena současně.

Je Delta Lake vendor-neutral?

Delta Lake je open-source (Linux Foundation), ale historicky byl primárně provozován v Databricks. Od Delta 3.x s UniForm je kompatibilní s Iceberg readery (Snowflake, BigQuery, Athena). Iceberg má širší multi-vendor podporu.

Co je Microsoft Fabric ve vztahu k lakehouse?

Microsoft Fabric je SaaS lakehouse postavený na OneLake (Delta Parquet na ADLS). Integruje Power BI, Synapse, Data Factory a Synapse ML do jedné platformy. Pozicuje se jako alternativa k Databricks pro Microsoft-centric firmy.

Potřebuji opravdu lakehouse, nebo stačí Snowflake + dbt?

Pro 70 % středně velkých českých firem stačí Snowflake + dbt + Power BI. Lakehouse má smysl, když máte konkrétní ML/AI use case, masivní semi-strukturovaná data nebo strategický důvod k otevřeným formátům.

Jaký je rozdíl mezi data lake a lakehouse?

Data lake = raw soubory v S3 bez transakční vrstvy (data swamp risk). Lakehouse = data lake + ACID transakce, schema evolution, time travel a governance přes Delta/Iceberg/Hudi.

Co zvolit pro startup do 50 zaměstnanců?

BigQuery nebo Snowflake pro BI. Lakehouse je v této velikosti většinou over-engineering — engineering kapacita je důležitější než teoretická flexibilita.

Lakehouse vs Data Warehouse — který přístup zvolit

Lakehouse vs data warehouse: co zvolit?

Kontext: warehouse, lake, lakehouse

Co je cloud data warehouse

Co je lakehouse

Srovnání

Kdy zvolit cloud data warehouse

Kdy zvolit lakehouse

Náklady a TCO

Migrace mezi nimi

Rozhodovací matice

Často kladené otázky

Je lakehouse rychlejší než warehouse?

Mohu mít Iceberg tabulky ve Snowflake?

Je Delta Lake vendor-neutral?

Co je Microsoft Fabric ve vztahu k lakehouse?

Potřebuji opravdu lakehouse, nebo stačí Snowflake + dbt?

Jaký je rozdíl mezi data lake a lakehouse?

Co zvolit pro startup do 50 zaměstnanců?

Potřebujete pomoct s implementací?

Váš partner pro
datovou transformaci

Lakehouse vs data warehouse: co zvolit?

Kontext: warehouse, lake, lakehouse

Co je cloud data warehouse

Co je lakehouse

Srovnání

Kdy zvolit cloud data warehouse

Kdy zvolit lakehouse

Náklady a TCO

Migrace mezi nimi

Rozhodovací matice

Často kladené otázky

Je lakehouse rychlejší než warehouse?

Mohu mít Iceberg tabulky ve Snowflake?

Je Delta Lake vendor-neutral?

Co je Microsoft Fabric ve vztahu k lakehouse?

Potřebuji opravdu lakehouse, nebo stačí Snowflake + dbt?

Jaký je rozdíl mezi data lake a lakehouse?

Co zvolit pro startup do 50 zaměstnanců?

Související obsah

Potřebujete pomoct s implementací?