Data Warehouse vs Data Lake vs Data Mart: Jak vybrat správnou architekturu

Při návrhu datové platformy narazíte na tři pojmy, které se často zaměňují: data warehouse, data lake a data mart. Každý řeší jiný problém a v moderní architektuře se obvykle kombinují. V tomto průvodci si vysvětlíme rozdíly, představíme lakehouse jako moderní hybrid a dáme vám rozhodovací strom pro váš konkrétní use case. Podíváme se i na governance, bezpečnost, compliance v rámci GDPR a DORA, migrační scénáře z on-premise systémů a orientační celkové náklady (TCO) pro středně velké firmy. Cílem je, abyste z tohoto textu odešli se schopností obhájit volbu architektury před vedením i před auditorem — nejen technicky, ale i ekonomicky.

Co je Data Warehouse

Datový sklad je centralizovaná databáze optimalizovaná pro analytické dotazy. Data se do něj nahrávají ze zdrojových systémů (ERP, CRM, e-shop) v předem definovaném schématu (schema-on-write) — typicky modelovaná do hvězdicových nebo vločkových schémat se faktovými a dimenzionálními tabulkami.

Hlavní použití je BI a reporting: analytici, controlleři a manageři se dotazují přes Power BI, Tableau nebo Looker. Sklad poskytuje konzistentní pohled na "single source of truth" — jeden výnos, jeden zákazník, jedna marže. Moderní sklady jako Snowflake, BigQuery a Redshift mají oddělené storage a compute, takže škálují elasticky.

Silné stránky: vysoký výkon analytických dotazů, mature governance, ACID transakce a snadná integrace s BI nástroji. Slabé stránky: vyšší cena za TB než blob storage a omezená flexibilita pro nestrukturovaná data (obrázky, video, dlouhé texty). Více v naší službě data warehousing.

Co je Data Lake

Data lake je úložiště pro surová data v jakémkoli formátu — JSON, Parquet, CSV, obrázky, log soubory. Typicky postavený na levném object storage (S3, Azure Data Lake Storage, Google Cloud Storage). Schéma se aplikuje až při čtení (schema-on-read), což znamená maximální flexibilitu pro experimenty a budoucí use cases, které dnes ještě neznáte.

Hlavní uživatelé jsou data scientists a data engineers. Lake je ideální pro machine learning (potřebujete surová historická data), pro archivaci kompletní historie zdrojů a pro zpracování velkých objemů semi-strukturovaných dat (clickstream, IoT eventy, logy aplikací).

Pozor na riziko "data swamp": bez governance, katalogu a kvality se lake rychle stane neudržitelným. Vždy nasazujte minimálně data catalog, data quality kontroly a zónovou organizaci (raw → cleansed → curated). V praxi se osvědčuje také medallion architektura (bronze/silver/gold), kde každá vrstva má jasná pravidla pro vlastnictví, SLA a retenci — díky tomu dokáže lake fungovat i pro produkční reporting, ne jen pro ad-hoc explorace.

Co je Data Mart

Data mart je tematický výřez z datového skladu pro konkrétní oddělení nebo use case — sales mart, finance mart, marketing mart. Obsahuje jen ta data, která daný tým potřebuje, v podobě, kterou rovnou používá pro reporting.

Výhoda je rychlost dotazů (menší objem dat), jednoduchá governance (každý tým vlastní svůj mart) a srozumitelnost pro business uživatele. Existují dva přístupy: top-down (Inmon) staví centrální sklad a marty z něj odvozuje, bottom-up (Kimball) staví marty první a sklad vzniká jejich integrací. V praxi dnes většinou vidíme hybridní přístup nebo data marty jako logické vrstvy (views, dbt modely) nad jediným fyzickým skladem.

Srovnávací tabulka

Pro rychlou orientaci jsme srovnali všechny tři přístupy podle klíčových kritérií:

Struktura dat
Data Warehouse
Strukturovaná, modelovaná
Data Lake
Surová, jakýkoli formát
Data Mart
Strukturovaný výřez
Schéma
Data Warehouse
Schema-on-write
Data Lake
Schema-on-read
Data Mart
Schema-on-write
Hlavní uživatelé
Data Warehouse
Analytici, BI
Data Lake
Data scientists, inženýři
Data Mart
Konkrétní oddělení
Typické nástroje
Data Warehouse
Snowflake, BigQuery, Redshift
Data Lake
S3, ADLS, GCS + Spark
Data Mart
Power BI dataset, Cube
Model nákladů
Data Warehouse
Compute + storage
Data Lake
Levný storage, compute on demand
Data Mart
Výřez ze skladu
Nejvhodnější pro
Data Warehouse
Reporting, dashboardy
Data Lake
ML, explorace, archiv
Data Mart
Oddělené KPI
Governance
Data Warehouse
Vysoký (vyzrálý)
Data Lake
Potřebuje další vrstvu
Data Mart
Dědí ze skladu

Lakehouse — moderní hybrid

Lakehouse je architektura, která kombinuje flexibilitu data lake s výkonem a governance datového skladu. Postaveno je to na transakčních formátech jako Delta Lake, Apache Iceberg a Apache Hudi, které přinášejí ACID transakce, time travel a schema evolution přímo nad soubory v S3/ADLS/GCS.

Hlavními platformami jsou Databricks (Delta Lake) a Snowflake (Iceberg podpora od 2024). Microsoft Fabric a Google BigLake jsou novější alternativy. Co lakehouse přináší navíc proti čistému warehouse + lake setupu:

  • Jedna kopie dat pro BI i ML — žádné duplicitní pipeline z lake do warehouse.
  • Otevřené formáty (Parquet + transakční vrstva) — nejste vendor-locked, data si můžete přečíst i mimo platformu.
  • Nižší celkové náklady — storage je levný blob, compute platíte jen při běhu úlohy.

Lakehouse není všespasitelné řešení — pro čistě BI workload bez ML potřeby je klasický cloudový warehouse stále jednodušší a často levnější.

Rozhodovací strom — co zvolit

Konkrétní doporučení podle vašeho hlavního use case:

Zvolte Data Warehouse, pokud:

  • Vaším primárním cílem je BI a reporting — dashboardy, manažerské reporty, finanční analýzy.
  • Pracujete převážně se strukturovanými daty z ERP, CRM, účetnictví a e-shopu.
  • Potřebujete vysokou governance a auditovatelnost — regulované odvětví, finanční výkazy.

Zvolte Data Lake, pokud:

  • Děláte data science a ML a potřebujete surová historická data k trénování modelů.
  • Máte velké objemy semi-strukturovaných dat (logy, eventy, IoT, clickstream).
  • Potřebujete archivovat kompletní historii zdrojů pro budoucí use cases nebo compliance.

Zvolte Lakehouse, pokud:

  • Děláte BI i ML a chcete se vyhnout duplicitě dat mezi sklady a lake.
  • Chcete otevřené formáty a nezávislost na konkrétním vendoru.

Pokud si nejste jistí, naše služba data engineering zahrnuje 30minutový audit, kde vám doporučíme architekturu na míru vašemu use case a rozpočtu. Pro výběr cloudové platformy se podívejte na srovnání Snowflake, Databricks a BigQuery.

Governance, bezpečnost a compliance

Governance je dimenze, ve které se sklady a lake liší nejvíc. Klasický datový sklad jako Snowflake, BigQuery nebo Redshift přichází s vyzrálým role-based access control, zabezpečením na úrovni sloupců i řádků, dynamickým maskováním dat, tagováním objektů a nativními audit logy. V regulovaných odvětvích (banky, pojišťovny, zdravotnictví pod GDPR, HIPAA, DORA, NIS2) je to hlavní důvod, proč citlivé domény držet ve skladu, ne v surovém lake.

Surový data lake na S3, ADLS nebo GCS je jen object storage — governance vrstvu si musíte přidat sami. V praxi to znamená Unity Catalog na Databricks, AWS Lake Formation, Microsoft Purview nebo open-source projekty jako Apache Ranger a OpenMetadata. Bez této vrstvy je téměř nemožné vynutit princip nejnižších oprávnění, prokázat lineage auditorovi nebo věrohodně zpracovat požadavek Right to be Forgotten napříč petabajty Parquet souborů.

Lakehouse formáty — Delta Lake, Apache Iceberg a Apache Hudi — většinu této mezery zavírají. Přidávají nad levný object storage ACID transakce, time travel, vynucování schématu a jemné řízení přístupu. Pro greenfield projekty v roce 2026 obvykle doporučujeme Iceberg nebo Delta s Unity Catalog nebo Polaris jako governance vrstvou — získáte kontroly na úrovni skladu při ekonomice lake. Počítejte s tagováním PII při ingestu, neměnitelným audit logem uchovávaným minimálně 13 měsíců a čtvrtletními access review — tahle kombinace obvykle uspokojí interní audit i externí regulátory.

Migrační cesty a celkové náklady (TCO)

Většina středně velkých firem k tomuto rozhodnutí přichází z jedné ze tří startovních pozic: zastarávajícího on-premise skladu (Oracle, SQL Server, Teradata), nepřehledné sbírky CSV/Excel exportů nebo první generace lake postaveného na surovém S3 + Spark noteboocích. Nejlevnější cesta zřídka znamená big-bang přepsání. Doporučujeme strangler-fig migraci: postavit nový sklad nebo lakehouse, replikovat zdroje přes ELT nástroje (Fivetran, Airbyte, Rivery), přestavět klíčové marty v dbt a přepínat dashboardy doménu po doméně po dobu 3–6 měsíců.

Orientační rozpočty pro středně velkou firmu (50–500 zaměstnanců, 1–10 TB analytických dat): managed cloudový warehouse vyjde na 1 500–6 000 € měsíčně za compute a storage, plus 800–2 500 € za ELT nástroje a 300–1 500 € za BI licence. Lakehouse na Databricks nebo Snowflake + Iceberg se pohybuje v podobném pásmu, ale lépe škáluje nad 50 TB nebo při těžkých ML workloadech. Čistě self-managed lake vypadá na papíře levněji (object storage 20–25 €/TB/měsíc), ale typicky potřebuje 1–2 FTE platform engineery, což pod hranicí 100 TB úspory na storage výrazně převýší.

Tři páky dominují TCO: správné dimenzování warehouse compute (auto-suspend, oddělené XS/S/M warehouses pro různé workloady), tiering storage pro chladná data (archivace partitions starších 18 měsíců) a disciplína dotazů (materialized views, clustering, pruning). Zákazníci, kteří aplikují všechny tři páky, obvykle během dvou kvartálů sníží cloudový účet o 30–50 %. Pro odhad na míru náš tým data warehousing v rámci 30minutového auditu zdarma připraví písemné TCO srovnání pokrývající Snowflake, BigQuery a Databricks pro vaše konkrétní objemy dat a SLA.

Časté otázky

Jaký je rozdíl mezi data warehouse a data lake?

Data warehouse ukládá strukturovaná, modelovaná data optimalizovaná pro BI a reporting (schema-on-write). Data lake ukládá surová data v jakémkoli formátu na levném object storage a schéma se aplikuje až při čtení (schema-on-read). Sklad je vhodný pro analytiky a manažery, lake pro data scientists a engineery.

Co je data mart a kdy ho použít?

Data mart je tematický výřez ze skladu pro konkrétní oddělení (sales, finance, marketing). Použijte ho, když chcete dát konkrétnímu týmu jen jeho data v podobě, kterou rovnou používá. V moderní architektuře se data marty často implementují jako logická vrstva (dbt modely) nad jediným fyzickým skladem.

Co je lakehouse a v čem je lepší než klasický warehouse?

Lakehouse je hybridní architektura kombinující flexibilitu data lake s výkonem a governance warehouse. Postaveno je na transakčních formátech (Delta Lake, Apache Iceberg) přímo nad object storage. Hlavní výhody: jedna kopie dat pro BI i ML, otevřené formáty (žádný vendor lock-in), nižší celkové náklady. Hlavní platformy: Databricks a Snowflake.

Kolik stojí implementace datového skladu?

Pilotní cloudový sklad (Snowflake/BigQuery) s 3–5 zdroji, dbt modelováním a základním reportingem v Power BI startuje od 250 000 Kč za 6–8 týdnů. Enterprise nasazení s desítkami zdrojů, governance vrstvou, lineage a data quality kontrolami jde do milionů. Cloudové sklady mají navíc průběžné náklady za compute a storage (typicky 5 000–50 000 Kč/měsíc podle objemu).

Je lepší Snowflake, BigQuery nebo Databricks?

Snowflake je nejlepší pro čistě BI workload s minimální správou. BigQuery je výhodný, pokud už používáte Google Cloud a Google Analytics. Databricks je nejvhodnější, pokud kombinujete BI s rozsáhlým ML a chcete lakehouse architekturu. Pro detailní srovnání se podívejte na naše stránky jednotlivých platforem.

Mohu mít data warehouse i data lake současně?

Ano, je to běžná architektura (často nazývaná "two-tier"). Lake slouží jako landing zone pro všechna surová data a archiv, warehouse obsahuje vyčištěná modelovaná data pro BI. Nevýhodou je duplicita dat a komplexita synchronizace — proto stále více firem přechází na lakehouse, který obě role kombinuje.

Potřebujete pomoct s implementací?

Domluvte si nezávaznou 30minutovou konzultaci s našimi specialisty.

Kontaktujte nás