What is Snowpark and how is it different from regular SQL?

Snowpark is a development framework for Python, Java and Scala running directly in Snowflake compute. Unlike SQL, it enables complex transformations, ML workflows, and use of existing libraries (pandas, scikit-learn) without moving data.

How does Snowpark work with pandas and scikit-learn?

Snowpark supports pandas API (snowpark-pandas) for DataFrame operations and scikit-learn for ML. Code runs in Snowflake warehouse, not locally. Data stays in Snowflake, only logic is pushed to cloud.

When to use Snowpark vs. external compute like Databricks?

Use Snowpark when: data is in Snowflake, you need data proximity (no egress), don't want to manage cluster. External compute for: GPU workloads, specific frameworks (Spark), or existing investments.

What are Snowpark Stored Procedures and how do they differ from SQL procedures?

Snowpark stored procedures are Python/Scala/Java procedures running on Snowflake. They offer more flexibility than SQL procedures: loops, conditionals, external library imports, and integration with ML frameworks.

What is Snowpark Container Services?

Container Services enables running custom Docker containers in Snowflake infrastructure. Use cases: custom ML inference, complex data processing, GPU workloads, and microservices with direct access to Snowflake data.

How to integrate Snowpark with Streamlit?

Streamlit in Snowflake is native integration for building data apps. Snowpark provides data layer, Streamlit UI. Apps run in Snowflake, share security context. Ideal for internal dashboards and ML demos.

How to migrate existing PySpark code to Snowpark?

Migration is simplified by similar DataFrame API. Key steps: replace SparkSession with Snowpark Session, adjust I/O operations (read/write), validate pushdown transformations, and test with production sample.

How does Snowpark support machine learning workflows?

Snowpark ML includes: data preparation in DataFrame API, feature engineering, model training with scikit-learn/XGBoost, model registry for versioning, inference in UDFs, and integration with MLflow for experiment tracking.

What Python libraries are available in Snowpark?

Snowpark has access to Anaconda repository with 4000+ packages. Popular: pandas, numpy, scikit-learn, xgboost, lightgbm, scipy. Custom packages can be uploaded to stage. Versions are managed for compatibility.

How to create a UDF (User Defined Function) in Snowpark?

UDFs are created using @udf decorator in Python or registerTemporary() in Scala/Java. Function is pushed to Snowflake where it runs with data locality. Supports scalar and vectorized UDFs for different performance characteristics.

How to deploy Snowpark applications to production?

Production deployment includes: Git version control, CI/CD pipeline with automated testing, deployment to Snowflake via SnowCLI or API, monitoring with Snowflake logging, and rollback strategy for failed deployments.

What's the performance difference between local execution and Snowpark?

Snowpark uses Snowflake distributed compute - scales with warehouse size. For large data dramatically faster than local pandas. For small data overhead may be higher, optimize batch size.

How to optimize costs when using Snowpark?

Cost optimization: use vectorized UDFs instead of scalar, leverage cache_result() for repeated DataFrames, rightsize warehouse, monitor Query History for expensive operations, and consider Snowpark-optimized warehouse for ML.

What are best practices for Snowpark development?

Best practices: use DataFrame API instead of SQL strings, optimize pushdown operations, test locally before deployment, utilize vectorized UDFs, monitor warehouse utilization, and document dependencies.

Snowpark

Snowpark vývoj

Datové inženýrství a strojové učení v Pythonu, Javě nebo Scale přímo v Snowflake

Snowpark Development

Python, Scala a Java přímo ve Snowflake

Snowpark transformuje Snowflake z čistě SQL platformy na plnohodnotné vývojové prostředí. Datový engineering, machine learning a pokročilá analytika běží přímo tam, kde jsou data – bez přesunu, bez latence, bez bezpečnostních kompromisů.

10×

rychlejší vývoj

data movement

100%

governance zachována

Proč Snowpark?

Tradiční data pipelines přesouvají data ven ze skladu pro zpracování. Snowpark tento paradigm obrací:

Pushdown processing – kód běží na Snowflake compute, ne na lokálních serverech
DataFrame API kompatibilní s Pandas syntaxí pro snadný přechod
Native podpora pro Python, Scala a Java bez externích dependencies
Integrace s populárními ML frameworky (scikit-learn, XGBoost, PyTorch)
Serverless UDFs – funkce běží bez správy infrastruktury

Snowpark capabilities

DataFrames

Pandas-like API pro manipulaci s daty v Pythonu, Scala nebo Java

UDFs & Procedures

User-defined functions a stored procedures v Pythonu

ML Pipelines

End-to-end machine learning přímo ve Snowflake

Streamlit Apps

Interaktivní datové aplikace hostované v Snowflake

Praktické použití Snowpark

Data Engineering

Komplexní ETL/ELT transformace v Pythonu bez přesunu dat mimo Snowflake.

Machine Learning

Trénink a inference ML modelů přímo na produkčních datech s plnou governance.

Real-time Analytics

Streamlit aplikace pro interaktivní dashboardy a self-service analytiku.

Secure Data Products

Balíčkování datových produktů s UDFs pro bezpečné sdílení přes Marketplace.

Praktické použití

Reálné Snowpark implementace

Konkrétní use cases, které jsme implementovali nebo které demonstrují sílu Snowpark pro různá odvětví.

Cross-industry

ETL/ELT Pipeline Migration

Migrace legacy PySpark ETL pipeline do Snowpark. DataFrame API je téměř identické, což umožňuje rychlou migraci.

Eliminace Spark cluster management
Snížení data egress o 100%
Jednodušší operace a debugging

60%

snížení provozních nákladů

E-commerce

Real-time ML Scoring

Scoring ML modelu pro personalizované doporučení přímo v Snowflake pomocí Python UDF. Model trénovaný lokálně, inference v produkci.

Zero latency na data
Governance zachována
Škálování s warehouse

<50ms

inference time

Finance

Feature Engineering Pipeline

Automatizovaná příprava features pro ML modely. Snowpark pro transformace, Snowflake ML pro feature store.

Reproducibilní features
Point-in-time správnost
Integrovaný versioning

10x

rychlejší feature development

Healthcare

Data Quality Framework

Komplexní data quality checks implementované jako Snowpark stored procedures. Spouštěné Tasks po každém data loadu.

Proaktivní detekce anomálií
Automatické alerting
Audit trail

95%

redukce data issues

Telco

Incremental Processing

CDC pipeline pomocí Streams a Tasks. Snowpark procedury zpracovávají pouze změněná data, dramaticky snižuje compute.

Minimální warehouse time
Near real-time freshness
Cost efficiency

80%

snížení compute nákladů

Banking

Anonymization Pipeline

GDPR-compliant anonymizace PII dat pomocí Python UDFs. Deterministické hašování pro zachování analytické hodnoty.

Compliance by design
Preservace dat utility
Auditovatelnost

100%

GDPR compliance

Snowpark v praxi podle odvětví

Retail & E-commerce

Personalizace v reálném čase
Demand forecasting
Customer 360 views
Inventory optimization

Finance & Banking

Fraud detection ML
Risk modeling
AML transaction screening
Credit scoring

Healthcare

Clinical data processing
Patient journey analytics
Drug interaction analysis
HIPAA-compliant ML

Manufacturing

Predictive maintenance
Quality control ML
Supply chain optimization
IoT data processing

Ukázky kódu

Snowpark v praxi

Praktické příklady Python kódu pro běžné Snowpark use cases.

DataFrame transformace

Základní DataFrame operace podobné pandas - filtering, agregace, joins

from snowflake.snowpark import Session
from snowflake.snowpark.functions import col, sum, avg, when

# Připojení k Snowflake
session = Session.builder.configs(connection_params).create()

# Načtení dat jako DataFrame
orders_df = session.table("ORDERS")
customers_df = session.table("CUSTOMERS")

# Filtering a transformace
active_orders = orders_df.filter(
    (col("STATUS") == "COMPLETED") & 
    (col("ORDER_DATE") >= "2024-01-01")
)

# Agregace podle regionu
regional_sales = active_orders.group_by("REGION").agg(
    sum("AMOUNT").alias("TOTAL_SALES"),
    avg("AMOUNT").alias("AVG_ORDER"),
    col("REGION").count().alias("ORDER_COUNT")
)

# Join s customer daty
enriched_df = regional_sales.join(
    customers_df.select("REGION", "REGION_MANAGER"),
    on="REGION",
    how="left"
)

# Uložení výsledku do tabulky
enriched_df.write.mode("overwrite").save_as_table("REGIONAL_SALES_SUMMARY")

Srovnání

Snowpark vs alternativy

Kdy zvolit Snowpark a kdy jinou technologii? Objektivní srovnání pro informované rozhodnutí.

Kritérium	Snowpark	PySpark/Databricks	dbt + Python	Pandas lokálně
Data locality	Data zůstávají ve Snowflake	Vyžaduje data transfer	Běží ve Snowflake	Stahuje vše lokálně
Škálování	Automatické s warehouse	Cluster autoscaling	Snowflake compute	Single machine limit
ML integrace	scikit-learn, XGBoost native	MLlib, full ML stack	Omezená ML podpora	Plná flexibilita
Governance	Unified se Snowflake	Vyžaduje Unity Catalog	Snowflake governance	Žádná built-in
Provozní náklady	Žádný cluster management	Cluster overhead	SaaS model	Minimální
GPU workloads	Container Services	Native GPU support	Nepodporováno	Vyžaduje cuDF
Learning curve	Pandas-like API	Spark specifika	SQL focus	Známé pro DS

Kdy co použít?

Data už jsou ve Snowflake

Snowpark

Zero data movement, unified governance, serverless compute

Potřebujete GPU pro deep learning

Databricks / cloud ML

Snowpark Container Services je v preview, Databricks má mature GPU support

Primárně SQL transformace

dbt

dbt je optimalizovaný pro SQL-first workflow s verzováním a testováním

Malá data, rychlé prototypování

Pandas lokálně

Pro datasety < 1M řádků je lokální vývoj rychlejší pro iterace

Multi-cloud nebo streaming

Spark/Databricks

Spark má širší ekosystém pro streaming a multi-cloud deployments

Best Practices

Doporučení a časté chyby

Osvědčené postupy pro Snowpark development a chyby, kterým se vyhnout.

Doporučujeme

Používejte DataFrame API místo SQL strings

DataFrame operace jsou type-safe a umožňují lepší optimalizaci. Pushdown funguje efektivněji.

Preferujte vectorized UDFs

Vectorized UDFs zpracovávají data v dávkách (pandas) - dramaticky rychlejší než scalar UDFs pro velké datasety.

Testujte lokálně před deployment

Použijte snowpark-python lokálně s malým sample daty. Ověřte logiku před spuštěním na full dataset.

Monitorujte warehouse utilization

Query History ukazuje skutečnou spotřebu. Optimalizujte warehouse size podle real workload patterns.

Vyvarujte se

Nepoužívejte collect() na velké datasety

collect() stahuje data do lokální paměti. Pro miliony řádků způsobí OOM. Zpracovávejte ve Snowflake.

Vyhněte se row-by-row processing

Python loops přes řádky jsou extrémně pomalé. Využívejte DataFrame operace nebo vectorized UDFs.

Neregistrujte UDF v každém session

is_permanent=True registruje UDF jednou. Avoid overhead opakované registrace při každém spuštění.

Neimportujte velké knihovny zbytečně

Každý import zvyšuje cold start time. Importujte pouze potřebné moduly, zvažte lazy imports.

Performance tipy

Snowpark-optimized warehouse pro ML

Pro training ML modelů použijte WAREHOUSE_TYPE = SNOWPARK-OPTIMIZED. Více paměti per node.

Batch operations místo jednotlivých

Jeden write.save_as_table() místo tisíce INSERT statements. Batching dramaticky snižuje overhead.

Filter early, join late

Pushdown filtry na začátek pipeline. Menší intermediate datasets = rychlejší joiny.

Cache intermediate results

Pro reused DataFrames použijte cache_result(). Eliminuje opakované computation.

Naše Snowpark služby

Podpora Pythonu a Scaly

Vývoj v oblíbených jazycích s plnou podporou Snowflake

ML vývoj

Trénink modelů a inference přímo v Snowflake bez přesunu dat

Uživatelské funkce a procedury

Vlastní funkce a procedury v Pythonu/Scale

Datové pipeline

Komplexní ETL/ELT pipelines pomocí DataFrame API

Kontejnerové služby

Kontejnerizované workloady v Snowpark Container Services

Integrace Streamlit

Nativní Streamlit aplikace v Snowflake pro vizualizace

Vývojový proces

Implementace Snowpark projektů

Fáze 1: Plánování

1 týden

Definice případu užití
Výběr programovacího jazyka
Návrh architektury
Nastavení vývojového prostředí
Plánování nasazování

Fáze 2: Vývoj

3-8 týdnů

Vývoj kódu
Tvorba uživatelských funkcí a procedur
Implementace datových pipeline
Jednotkové testování
Optimalizace výkonu

Fáze 3: Nasazení

1-2 týdny

Nasazení do produkce
Integrační testování
Nastavení monitoringu
Dokumentace
Předání

Fáze 4: Provoz

Průběžně

Monitoring výkonu
Opravy chyb
Vylepšení funkcí
Aktualizace verzí
Podpora týmu

Technologický stack

Snowpark vývojové nástroje

Languages

PythonScalaJavaSQL

ML/AI

scikit-learnXGBoostLightGBMPyTorch

DataFrames

Snowpark DataFramePandasNumPySciPy

Development

JupyterVS CodeSnowsightGit

Časté dotazy k Snowpark vývoji

Odpovědi na nejčastější otázky o vývoji v Snowpark

Snowpark vývoj

Python, Scala a Java přímo ve Snowflake

Proč Snowpark?

Snowpark capabilities

DataFrames

UDFs & Procedures

ML Pipelines

Streamlit Apps

Praktické použití Snowpark

Data Engineering

Machine Learning

Real-time Analytics

Secure Data Products

Reálné Snowpark implementace

ETL/ELT Pipeline Migration

Real-time ML Scoring

Feature Engineering Pipeline

Data Quality Framework

Incremental Processing

Anonymization Pipeline

Snowpark v praxi podle odvětví

Retail & E-commerce

Finance & Banking

Healthcare

Manufacturing

Snowpark v praxi

DataFrame transformace

Snowpark vs alternativy

Kdy co použít?

Doporučení a časté chyby

Doporučujeme

Používejte DataFrame API místo SQL strings

Preferujte vectorized UDFs

Testujte lokálně před deployment

Monitorujte warehouse utilization

Vyvarujte se

Nepoužívejte collect() na velké datasety

Vyhněte se row-by-row processing

Neregistrujte UDF v každém session

Neimportujte velké knihovny zbytečně

Performance tipy

Snowpark-optimized warehouse pro ML

Batch operations místo jednotlivých

Filter early, join late

Cache intermediate results

Naše Snowpark služby

Podpora Pythonu a Scaly

ML vývoj

Uživatelské funkce a procedury

Datové pipeline

Kontejnerové služby

Integrace Streamlit

Vývojový proces

Fáze 1: Plánování

Fáze 2: Vývoj

Fáze 3: Nasazení

Fáze 4: Provoz

Technologický stack

Languages

ML/AI

DataFrames

Development

Časté dotazy k Snowpark vývoji

Co je Snowpark a jaký je rozdíl oproti klasickému SQL?

Jak Snowpark funguje s pandas a scikit-learn?

Kdy použít Snowpark vs. externí compute jako Databricks?

Jak vytvořit UDF (User Defined Function) ve Snowpark?

Co jsou Snowpark Stored Procedures a jak se liší od SQL procedur?

Jak deployovat Snowpark aplikace do produkce?

Jaký je performance rozdíl mezi local execution a Snowpark?

Jak Snowpark podporuje machine learning workflows?

Co je Snowpark Container Services?

Jak integrovat Snowpark s Streamlit?

Jaké jsou best practices pro Snowpark development?

Jak migrovat existující PySpark kód do Snowpark?

Jaké Python knihovny jsou dostupné ve Snowpark?

Jak optimalizovat náklady při používání Snowpark?