Databricks — pojmy a srovnáníDatabricks: lakehouse architektura, ceny a klíčové pojmy
Často hledané pojmy okolo platformy Databricks — od Delta Lake a Unity Catalog přes Photon a MLflow až po srovnání se Snowflake a BigQuery.
Co je Databricks
Databricks je sjednocená data a AI platforma postavená na Apache Sparku a otevřeném formátu Delta Lake. Kombinuje data engineering, data warehousing, streaming, ML a generativní AI v jednom prostředí (lakehouse) napříč AWS, Azure i GCP.
Lakehouse architektura
Lakehouse spojuje flexibilitu data lake (levné object storage, otevřené formáty Parquet/Delta) s ACID transakcemi, schématem a výkonem datového skladu. Eliminuje potřebu samostatného DWH nad data lake — jeden zdroj pravdy pro BI, ML i streaming.
Delta Lake
Delta Lake je open-source storage vrstva nad Parquet souborů s ACID transakcemi, time travel, schema enforcement/evolution a upsert/merge operacemi. Tvoří základ Databricks lakehouse a běží i mimo Databricks (Spark, Trino, Flink).
Unity Catalog
Unity Catalog je centrální governance vrstva Databricks pro tabulky, soubory, ML modely, dashboards a notebooks napříč workspaces. Poskytuje RBAC, row/column security, data lineage, audit log a Delta Sharing pro sdílení dat mezi účty bez kopírování.
Apache Spark a Photon
Apache Spark je distribuovaný engine pro batch i streaming zpracování. Photon je vektorizovaný C++ runtime Databricks postavený nad Sparkem — 2–4× rychlejší pro SQL a DataFrame workloady a typicky levnější díky kratším runům.
Databricks SQL a SQL Warehouses
Databricks SQL nabízí SQL editor, dashboardy a alerts nad lakehouse přes SQL Warehouses (serverless nebo classic). Konkuruje Snowflake i BigQuery pro BI workloady přímo nad Delta tabulkami, bez nutnosti samostatného DWH.
Databricks vs Snowflake
Snowflake je SQL-first data cloud s nejlepším výkonem na strukturovaná data a snadnou správou. Databricks je lakehouse silnější v ML, custom Pythonu, streamingu a práci s nestrukturovanými daty. Často koexistují: Databricks pro ETL/ML, Snowflake pro BI vrstvu.
Databricks vs BigQuery
BigQuery je serverless GCP-native warehouse s on-demand a flat-rate cenami, jednodušší pro pure-SQL workloady. Databricks je multi-cloud lakehouse s plnou kontrolou nad výpočtem, silnější v Pythonu/Sparku, ML pipelines a streamingu (Structured Streaming, DLT).
MLflow a Databricks ML
MLflow je open-source platforma pro ML lifecycle (tracking experimentů, model registry, deployment) vyvinutá Databricksem. Databricks ML přidává AutoML, Feature Store, Model Serving (real-time inference) a integraci s Unity Catalogem pro governance modelů.
Delta Live Tables (DLT) a Workflows
Delta Live Tables je deklarativní framework pro datové pipelines — definujete cílový stav, DLT řeší orchestraci, error handling, data quality (expectations) a CDC. Workflows je nativní orchestrátor Databricks (alternativa Airflow) pro joby, notebooky a SQL.
Databricks ceny a DBU
Databricks účtuje výpočet v DBU (Databricks Units, per-second) — cena závisí na typu workloadu (Jobs, All-Purpose, SQL, Serverless), edici (Standard/Premium/Enterprise) a cloudu. K DBU se přičítá cena cloud compute (VM, storage). Optimalizace: autoscaling, Photon, serverless, spot instances.
Kdy zvolit Databricks (a kdy ne)
Databricks volte pro lakehouse architekturu, pokročilý ML, streaming a workloady kombinující SQL i Python/Spark. Méně vhodný je pro malé pure-SQL DWH bez ML potřeb (Snowflake/BigQuery bývají jednodušší). V Daata stavíme Databricks řešení od datové platformy přes ML pipelines až po LLM aplikace.