Lakehouse vs Data Warehouse — který přístup zvolit

Detailní srovnání lakehouse architektury (Databricks, Iceberg, Delta Lake) a klasického cloud data warehouse (Snowflake, BigQuery). Use cases, náklady, rozhodovací matice.

Stručná odpověď

Lakehouse vs data warehouse: co zvolit?

Cloud data warehouse (Snowflake, BigQuery, Redshift) je optimalizovaný pro SQL analytiku a BI nad strukturovanými daty — vyniká výkonem, jednoduchostí a governance. Lakehouse (Databricks + Delta Lake, nebo Iceberg/Hudi nad S3) přidává podporu polostrukturovaných dat, ML/AI workloadů a otevřených formátů. Pro čisté BI doporučujeme warehouse, pro kombinaci BI + ML + raw data + multi-engine přístup volte lakehouse. V roce 2026 oba světy konvergují — Snowflake podporuje Iceberg, Databricks SQL Warehouse zvládá BI.

Kontext: warehouse, lake, lakehouse

Tři generace analytického storage:

  • Data warehouse (90. léta–dnes) — strukturovaná data, SQL, BI. Teradata, Oracle, dnes Snowflake/BigQuery.
  • Data lake (2010+) — raw soubory v S3/HDFS, levný storage, vhodný pro ML, ale slabá governance a "data swamp".
  • Lakehouse (2020+) — kombinace: levný object storage + transakční vrstva (Delta, Iceberg, Hudi) přidává ACID, schema evolution a time travel.

Detailní srovnání warehouse vs lake máme v guide Data Warehouse vs Data Lake. Tento guide se zaměřuje na warehouse vs lakehouse.

Co je cloud data warehouse

Cloud data warehouse je managed SQL platforma optimalizovaná pro analytické dotazy nad strukturovanými daty. Kombinuje proprietární sloupcový storage, MPP execution engine a governance vrstvu.

Hlavní hráči: Snowflake, Google BigQuery, AWS Redshift, Azure Synapse. Srovnání platforem najdete v Snowflake vs BigQuery.

Silné stránky: výkon, jednoduchost provozu, vyspělá governance a time travel, široký BI ekosystém.

Co je lakehouse

Lakehouse je architektura, která přidává transakční vrstvu (Delta Lake, Apache Iceberg, Apache Hudi) nad levný object storage (S3, ADLS, GCS). Výsledek: jedna kopie dat slouží jak BI, tak ML/AI.

Hlavní implementace:

  • Databricks — referenční lakehouse, Delta Lake + Unity Catalog + Photon SQL.
  • Iceberg + Trino/Snowflake/Spark — vendor-neutral, Iceberg dnes podporuje Snowflake, BigQuery, Athena, Databricks, Dremio.
  • Microsoft Fabric / OneLake — lakehouse postavený nad Delta Parquet, integrace s Power BI.

Vzor medallion (bronze/silver/gold) je dnes de-facto standard.

Srovnání

Klíčové rozdíly v jedné tabulce:

Příklady
Cloud Data Warehouse
Snowflake, BigQuery, Redshift
Lakehouse
Databricks, Iceberg/Trino na S3
Storage
Cloud Data Warehouse
Proprietární sloupcový
Lakehouse
Otevřené formáty (Parquet + Delta/Iceberg)
Compute
Cloud Data Warehouse
Vázaný na storage
Lakehouse
Oddělený, vyměnitelný (Spark, Trino, DuckDB)
Typy dat
Cloud Data Warehouse
Strukturovaná, semi-strukturovaná
Lakehouse
Strukturovaná, semi i nestrukturovaná
BI výkon
Cloud Data Warehouse
Excelentní
Lakehouse
Velmi dobrý (od Photon/SQL Warehouse)
ML/AI workloady
Cloud Data Warehouse
Omezené (přes externí Spark)
Lakehouse
Native (Spark, MLflow, Unity Catalog)
Vendor lock-in
Cloud Data Warehouse
Vyšší (proprietární formát)
Lakehouse
Nižší (otevřené formáty)
TCO pro BI-only
Cloud Data Warehouse
Nižší — méně ops
Lakehouse
Vyšší — potřeba ladění Spark
TCO pro BI + ML
Cloud Data Warehouse
Vyšší — duplikace dat do Spark
Lakehouse
Nižší — jeden zdroj pravdy
Governance
Cloud Data Warehouse
Vyspělá (Snowflake Horizon)
Lakehouse
Vyspělá (Unity Catalog, Lake Formation)
Time-to-value
Cloud Data Warehouse
Týdny
Lakehouse
Měsíce

Kdy zvolit cloud data warehouse

  • Primárně SQL BI a reporting (Power BI, Tableau, Looker).
  • Strukturovaná data z ERP, CRM, e-shopu, výroby.
  • Tým nemá Spark expertizu a chcete co nejmenší ops.
  • Rychlý time-to-value — pilot za 4–6 týdnů.
  • Náročné governance a compliance (Snowflake Horizon).

Kdy zvolit lakehouse

  • Kombinace BI + ML/AI nad stejnými daty (Spark, MLflow).
  • Velké objemy semi/nestrukturovaných dat (JSON, IoT, log, obrazy).
  • Multi-engine přístup — Trino, DuckDB, Spark, Snowflake nad stejnými soubory.
  • Strategická minimalizace vendor lock-in (otevřené formáty Iceberg/Delta).
  • Streaming workloady s Kafkou a Spark Structured Streaming.

Náklady a TCO

Storage je u lakehouse výrazně levnější (S3 ~23 USD/TB/měsíc vs Snowflake ~40 USD/TB/měsíc). U compute ale často vychází podobně:

  • Snowflake účtuje warehouse credity (X-Small ~2 USD/h, scaling automatický).
  • Databricks SQL Warehouse ~0.55 USD/DBU + cena compute (EC2/Azure VM).
  • Pro 100 GB BI workload je rozdíl marginal; pro 100 TB BI + ML může být lakehouse 30–50 % levnější.

Skrytý náklad lakehouse: engineering time na ladění Spark jobů, table maintenance (Z-Order, VACUUM), governance.

Migrace mezi nimi

Warehouse → Lakehouse: typicky 6–12 měsíců. Export do Iceberg/Delta na S3, refactor dbt modelů, přesun reportů. Dělá smysl při potřebě ML nebo eliminaci lock-in.

Lakehouse → Warehouse: typicky 3–6 měsíců. Z Iceberg/Delta do Snowflake přes external tables nebo COPY. Dělá smysl, když lakehouse provoz převažuje nad přínosy.

Pro migrace doporučujeme přístup "strangler fig" — nový workload na nové platformě, legacy postupně utlumovat.

Rozhodovací matice

  • Malá firma, BI only → Snowflake nebo BigQuery (warehouse).
  • Mid-market, BI + plánujeme ML → Snowflake s Iceberg tabulkami nebo Databricks SQL.
  • Enterprise, BI + ML + streaming → Databricks lakehouse.
  • Multi-cloud, anti-lock-in → Iceberg na S3/ADLS/GCS + Trino/Snowflake.
  • Microsoft stack, Power BI heavy → Microsoft Fabric (lakehouse vrstva nativně integrována).

Často kladené otázky

Je lakehouse rychlejší než warehouse?

Pro klasické BI dotazy je warehouse (Snowflake, BigQuery) typicky o 10–30 % rychlejší. Databricks Photon a SQL Warehouse rozdíl smazávají. Pro ML feature engineering nad velkými daty je lakehouse výrazně rychlejší.

Mohu mít Iceberg tabulky ve Snowflake?

Ano. Snowflake podporuje Apache Iceberg jako "externí" i jako nativní tabulky od 2024. Můžete tak mít jednu kopii dat dostupnou Snowflake, Spark, Trino i Athena současně.

Je Delta Lake vendor-neutral?

Delta Lake je open-source (Linux Foundation), ale historicky byl primárně provozován v Databricks. Od Delta 3.x s UniForm je kompatibilní s Iceberg readery (Snowflake, BigQuery, Athena). Iceberg má širší multi-vendor podporu.

Co je Microsoft Fabric ve vztahu k lakehouse?

Microsoft Fabric je SaaS lakehouse postavený na OneLake (Delta Parquet na ADLS). Integruje Power BI, Synapse, Data Factory a Synapse ML do jedné platformy. Pozicuje se jako alternativa k Databricks pro Microsoft-centric firmy.

Potřebuji opravdu lakehouse, nebo stačí Snowflake + dbt?

Pro 70 % středně velkých českých firem stačí Snowflake + dbt + Power BI. Lakehouse má smysl, když máte konkrétní ML/AI use case, masivní semi-strukturovaná data nebo strategický důvod k otevřeným formátům.

Jaký je rozdíl mezi data lake a lakehouse?

Data lake = raw soubory v S3 bez transakční vrstvy (data swamp risk). Lakehouse = data lake + ACID transakce, schema evolution, time travel a governance přes Delta/Iceberg/Hudi.

Co zvolit pro startup do 50 zaměstnanců?

BigQuery nebo Snowflake pro BI. Lakehouse je v této velikosti většinou over-engineering — engineering kapacita je důležitější než teoretická flexibilita.

Potřebujete pomoct s implementací?

Domluvte si nezávaznou 30minutovou konzultaci s našimi specialisty.

Kontaktujte nás