Snowflake — pojmy a srovnáníSnowflake: architektura, ceny a klíčové pojmy
Často hledané pojmy okolo platformy Snowflake — od multi-cluster architektury přes credity a Snowpark až po srovnání s Databricks a BigQuery.
Co je Snowflake
Snowflake je cloudová data platforma postavená nativně pro AWS, Azure i GCP, která odděluje storage a compute. Poskytuje datový sklad, data lake, data sharing, ML (Snowpark, Cortex) i aplikační vrstvu (Native Apps) v jednom prostředí s pay-per-second billingem.
Architektura Snowflake (multi-cluster shared data)
Snowflake používá three-layer architekturu: cloud services (metadata, optimizer, security), compute (virtual warehouses — nezávislé clustery) a storage (centrální micro-partitions na S3/ADLS/GCS). Více warehousů čte stejná data bez vlivu na výkon.
Virtual warehouse a velikosti
Virtual warehouse je nezávislý compute cluster (XS až 6XL), který lze spustit, pozastavit a škálovat na vteřiny. Lze provozovat oddělené warehousy pro ETL, BI a data science, aby se vzájemně neovlivňovaly výkonem.
Snowflake ceny a credity
Snowflake účtuje za compute v kreditech (per-second, min. 60 s po startu) a za storage v $/TB/měsíc. Cena kreditu závisí na edici (Standard / Enterprise / Business Critical) a cloudu. Optimalizace: auto-suspend, správné velikosti, resource monitors a query acceleration.
Snowflake vs Databricks
Snowflake je primárně SQL data cloud s nejlepším výkonem na strukturovaná a semi-strukturovaná data a snadnou správou. Databricks je lakehouse postavený na Sparku, silnější v ML, streamingu a custom Pythonu. Často koexistují — Snowflake pro DWH/BI, Databricks pro ML/feature engineering.
Snowflake vs BigQuery
BigQuery je serverless GCP-native warehouse s on-demand i flat-rate cenami. Snowflake je multi-cloud s explicitní kontrolou compute (virtual warehouses). BigQuery má užší integraci s Google ekosystémem; Snowflake nabízí silnější data sharing a portovatelnost mezi cloudy.
Snowpark — Python, Java a Scala
Snowpark umožňuje psát data pipelines, UDF a ML kód v Pythonu, Javě či Scale, který běží přímo v Snowflake warehousu bez přesouvání dat. Snowpark ML přidává training a inference; Snowpark Container Services hostují kontejnerové úlohy (LLM, custom služby).
Snowflake Cortex (AI a LLM)
Cortex je managed AI vrstva Snowflake — předtrénované funkce (sentiment, summarize, translate, extract_answer), přístup k LLM (Llama, Mistral, Claude, Reka) přes SQL a Cortex Search pro RAG. Data zůstávají uvnitř Snowflake, bez nutnosti externího AI providera.
Time Travel a Fail-safe
Time Travel umožňuje dotazovat se na stav tabulky před změnou (až 90 dní v Enterprise edici) a obnovit smazané objekty. Fail-safe je dalších 7 dní pro disaster recovery spravovaný Snowflake supportem. Klíčové pro audit, rollback a ochranu před chybami.
Zero-copy clone a Data Sharing
Zero-copy clone vytvoří kopii tabulky, schématu nebo databáze metadatovou operací bez kopírování dat — ideální pro dev/test prostředí. Secure Data Sharing umožňuje sdílet data s externími účty bez ETL a duplikace, základ Snowflake Marketplace.
Snowflake security a governance
Snowflake nabízí RBAC, column/row-level security, dynamic data masking, tagging a Horizon Catalog pro governance napříč daty, ML modely a aplikacemi. Síťová bezpečnost přes Private Link, podpora SSO/SAML/SCIM, end-to-end šifrování a klíče s vlastním KMS (Tri-Secret Secure).
Kdy zvolit Snowflake (a kdy ne)
Snowflake volte pro multi-cloud datový sklad, snadnou správu, data sharing a BI workloady s proměnlivým výkonem. Méně vhodný je pro čistě streamingové use case s milisekundovou latencí nebo pro custom Spark/ML pipelines, kde Databricks nabídne lepší fit. V Daata stavíme Snowflake řešení od auditu po produkci.