Kontext: warehouse, lake, lakehouse
Tři generace analytického storage:
- Data warehouse (90. léta–dnes) — strukturovaná data, SQL, BI. Teradata, Oracle, dnes Snowflake/BigQuery.
- Data lake (2010+) — raw soubory v S3/HDFS, levný storage, vhodný pro ML, ale slabá governance a "data swamp".
- Lakehouse (2020+) — kombinace: levný object storage + transakční vrstva (Delta, Iceberg, Hudi) přidává ACID, schema evolution a time travel.
Detailní srovnání warehouse vs lake máme v guide Data Warehouse vs Data Lake. Tento guide se zaměřuje na warehouse vs lakehouse.
Co je cloud data warehouse
Cloud data warehouse je managed SQL platforma optimalizovaná pro analytické dotazy nad strukturovanými daty. Kombinuje proprietární sloupcový storage, MPP execution engine a governance vrstvu.
Hlavní hráči: Snowflake, Google BigQuery, AWS Redshift, Azure Synapse. Srovnání platforem najdete v Snowflake vs BigQuery.
Silné stránky: výkon, jednoduchost provozu, vyspělá governance a time travel, široký BI ekosystém.
Co je lakehouse
Lakehouse je architektura, která přidává transakční vrstvu (Delta Lake, Apache Iceberg, Apache Hudi) nad levný object storage (S3, ADLS, GCS). Výsledek: jedna kopie dat slouží jak BI, tak ML/AI.
Hlavní implementace:
- Databricks — referenční lakehouse, Delta Lake + Unity Catalog + Photon SQL.
- Iceberg + Trino/Snowflake/Spark — vendor-neutral, Iceberg dnes podporuje Snowflake, BigQuery, Athena, Databricks, Dremio.
- Microsoft Fabric / OneLake — lakehouse postavený nad Delta Parquet, integrace s Power BI.
Vzor medallion (bronze/silver/gold) je dnes de-facto standard.
Srovnání
Klíčové rozdíly v jedné tabulce:
| Kritérium | Cloud Data Warehouse | Lakehouse |
|---|---|---|
| Příklady | Snowflake, BigQuery, Redshift | Databricks, Iceberg/Trino na S3 |
| Storage | Proprietární sloupcový | Otevřené formáty (Parquet + Delta/Iceberg) |
| Compute | Vázaný na storage | Oddělený, vyměnitelný (Spark, Trino, DuckDB) |
| Typy dat | Strukturovaná, semi-strukturovaná | Strukturovaná, semi i nestrukturovaná |
| BI výkon | Excelentní | Velmi dobrý (od Photon/SQL Warehouse) |
| ML/AI workloady | Omezené (přes externí Spark) | Native (Spark, MLflow, Unity Catalog) |
| Vendor lock-in | Vyšší (proprietární formát) | Nižší (otevřené formáty) |
| TCO pro BI-only | Nižší — méně ops | Vyšší — potřeba ladění Spark |
| TCO pro BI + ML | Vyšší — duplikace dat do Spark | Nižší — jeden zdroj pravdy |
| Governance | Vyspělá (Snowflake Horizon) | Vyspělá (Unity Catalog, Lake Formation) |
| Time-to-value | Týdny | Měsíce |
- Cloud Data Warehouse
- Snowflake, BigQuery, Redshift
- Lakehouse
- Databricks, Iceberg/Trino na S3
- Cloud Data Warehouse
- Proprietární sloupcový
- Lakehouse
- Otevřené formáty (Parquet + Delta/Iceberg)
- Cloud Data Warehouse
- Vázaný na storage
- Lakehouse
- Oddělený, vyměnitelný (Spark, Trino, DuckDB)
- Cloud Data Warehouse
- Strukturovaná, semi-strukturovaná
- Lakehouse
- Strukturovaná, semi i nestrukturovaná
- Cloud Data Warehouse
- Excelentní
- Lakehouse
- Velmi dobrý (od Photon/SQL Warehouse)
- Cloud Data Warehouse
- Omezené (přes externí Spark)
- Lakehouse
- Native (Spark, MLflow, Unity Catalog)
- Cloud Data Warehouse
- Vyšší (proprietární formát)
- Lakehouse
- Nižší (otevřené formáty)
- Cloud Data Warehouse
- Nižší — méně ops
- Lakehouse
- Vyšší — potřeba ladění Spark
- Cloud Data Warehouse
- Vyšší — duplikace dat do Spark
- Lakehouse
- Nižší — jeden zdroj pravdy
- Cloud Data Warehouse
- Vyspělá (Snowflake Horizon)
- Lakehouse
- Vyspělá (Unity Catalog, Lake Formation)
- Cloud Data Warehouse
- Týdny
- Lakehouse
- Měsíce
Kdy zvolit cloud data warehouse
- Primárně SQL BI a reporting (Power BI, Tableau, Looker).
- Strukturovaná data z ERP, CRM, e-shopu, výroby.
- Tým nemá Spark expertizu a chcete co nejmenší ops.
- Rychlý time-to-value — pilot za 4–6 týdnů.
- Náročné governance a compliance (Snowflake Horizon).
Kdy zvolit lakehouse
- Kombinace BI + ML/AI nad stejnými daty (Spark, MLflow).
- Velké objemy semi/nestrukturovaných dat (JSON, IoT, log, obrazy).
- Multi-engine přístup — Trino, DuckDB, Spark, Snowflake nad stejnými soubory.
- Strategická minimalizace vendor lock-in (otevřené formáty Iceberg/Delta).
- Streaming workloady s Kafkou a Spark Structured Streaming.
Náklady a TCO
Storage je u lakehouse výrazně levnější (S3 ~23 USD/TB/měsíc vs Snowflake ~40 USD/TB/měsíc). U compute ale často vychází podobně:
- Snowflake účtuje warehouse credity (X-Small ~2 USD/h, scaling automatický).
- Databricks SQL Warehouse ~0.55 USD/DBU + cena compute (EC2/Azure VM).
- Pro 100 GB BI workload je rozdíl marginal; pro 100 TB BI + ML může být lakehouse 30–50 % levnější.
Skrytý náklad lakehouse: engineering time na ladění Spark jobů, table maintenance (Z-Order, VACUUM), governance.
Migrace mezi nimi
Warehouse → Lakehouse: typicky 6–12 měsíců. Export do Iceberg/Delta na S3, refactor dbt modelů, přesun reportů. Dělá smysl při potřebě ML nebo eliminaci lock-in.
Lakehouse → Warehouse: typicky 3–6 měsíců. Z Iceberg/Delta do Snowflake přes external tables nebo COPY. Dělá smysl, když lakehouse provoz převažuje nad přínosy.
Pro migrace doporučujeme přístup "strangler fig" — nový workload na nové platformě, legacy postupně utlumovat.
Rozhodovací matice
- Malá firma, BI only → Snowflake nebo BigQuery (warehouse).
- Mid-market, BI + plánujeme ML → Snowflake s Iceberg tabulkami nebo Databricks SQL.
- Enterprise, BI + ML + streaming → Databricks lakehouse.
- Multi-cloud, anti-lock-in → Iceberg na S3/ADLS/GCS + Trino/Snowflake.
- Microsoft stack, Power BI heavy → Microsoft Fabric (lakehouse vrstva nativně integrována).
Často kladené otázky
Je lakehouse rychlejší než warehouse?
Pro klasické BI dotazy je warehouse (Snowflake, BigQuery) typicky o 10–30 % rychlejší. Databricks Photon a SQL Warehouse rozdíl smazávají. Pro ML feature engineering nad velkými daty je lakehouse výrazně rychlejší.
Mohu mít Iceberg tabulky ve Snowflake?
Ano. Snowflake podporuje Apache Iceberg jako "externí" i jako nativní tabulky od 2024. Můžete tak mít jednu kopii dat dostupnou Snowflake, Spark, Trino i Athena současně.
Je Delta Lake vendor-neutral?
Delta Lake je open-source (Linux Foundation), ale historicky byl primárně provozován v Databricks. Od Delta 3.x s UniForm je kompatibilní s Iceberg readery (Snowflake, BigQuery, Athena). Iceberg má širší multi-vendor podporu.
Co je Microsoft Fabric ve vztahu k lakehouse?
Microsoft Fabric je SaaS lakehouse postavený na OneLake (Delta Parquet na ADLS). Integruje Power BI, Synapse, Data Factory a Synapse ML do jedné platformy. Pozicuje se jako alternativa k Databricks pro Microsoft-centric firmy.
Potřebuji opravdu lakehouse, nebo stačí Snowflake + dbt?
Pro 70 % středně velkých českých firem stačí Snowflake + dbt + Power BI. Lakehouse má smysl, když máte konkrétní ML/AI use case, masivní semi-strukturovaná data nebo strategický důvod k otevřeným formátům.
Jaký je rozdíl mezi data lake a lakehouse?
Data lake = raw soubory v S3 bez transakční vrstvy (data swamp risk). Lakehouse = data lake + ACID transakce, schema evolution, time travel a governance přes Delta/Iceberg/Hudi.
Co zvolit pro startup do 50 zaměstnanců?
BigQuery nebo Snowflake pro BI. Lakehouse je v této velikosti většinou over-engineering — engineering kapacita je důležitější než teoretická flexibilita.