Pojmy & srovnáníDatová integrace, CDC a streaming: pojmy, nástroje a vzory
Často hledané pojmy okolo datové integrace — od Change Data Capture a Kafka přes Fivetran/Airbyte po reverse ETL a iPaaS.
Co je datová integrace
Datová integrace je proces sjednocení dat z různých zdrojů (databáze, SaaS, API, soubory) do jednotného prostředí — typicky datového skladu, data lake nebo lakehouse. Cílem je jeden zdroj pravdy a možnost cross-systémové analytiky.
Batch vs real-time integrace
Batch integrace přesouvá data v dávkách (každou hodinu/den) — jednoduchá, levná, vhodná pro reporting. Real-time integrace doručuje data v sekundách přes streaming nebo CDC — nutná pro fraud detection, personalizaci a operativní dashboardy.
Change Data Capture (CDC)
CDC zachycuje změny v zdrojové databázi (INSERT/UPDATE/DELETE) typicky čtením transakčního logu (WAL, binlog, redo log). Doručuje jen delta změn — minimální zátěž zdroje a latence v jednotkách sekund. Nejčastější nástroje: Debezium, AWS DMS, Fivetran CDC.
ETL vs ELT vs streaming
ETL transformuje data před nahrátím do DW (legacy, on-prem). ELT nahrává raw data a transformuje v cloud DW (Snowflake, BigQuery) přes dbt. Streaming zpracovává data průběžně přes Kafka/Flink. Moderní stack typicky kombinuje ELT pro batch a streaming pro real-time.
Apache Kafka
Kafka je distribuovaná streaming platforma pro publish-subscribe a event sourcing. Zpracovává miliony zpráv za sekundu s low latency a perzistencí. Tvoří páteř moderních event-driven architektur — ingest z aplikací, CDC, IoT a propagace do DW i microservices.
Debezium pro CDC
Debezium je open-source CDC platforma postavená na Kafka Connect. Podporuje PostgreSQL, MySQL, SQL Server, Oracle, MongoDB. Streamuje row-level změny jako Kafka eventy — základ pro real-time replikaci, event sourcing a data mesh patterns.
Fivetran a Airbyte
Managed ELT konektory pro stovky SaaS zdrojů (Salesforce, HubSpot, Stripe, Google Ads). Fivetran je plně managed s premium cenou a auto-schema evolution. Airbyte je open-source alternativa s self-hosted i cloud variantou — flexibilnější, ale s vyšší správní zátěží.
iPaaS (Integration Platform as a Service)
iPaaS platformy (Azure Data Factory, AWS Glue, Google Dataflow, MuleSoft, Boomi, Workato) nabízí managed integraci s vizuálním návrhem pipelines, konektory a orchestrací. Vhodné pro středně složité scénáře bez nutnosti budovat custom infrastrukturu.
API integrace (REST, GraphQL, gRPC)
REST je univerzální pro většinu B2B integrací. GraphQL umožňuje klientům dotázat se přesně na potřebná pole — snižuje overhead. gRPC nabízí binární protokol s nízkou latencí pro microservice-to-microservice komunikaci a streaming.
Reverse ETL
Reverse ETL posílá data z datového skladu zpět do operativních systémů (CRM, marketing automation, support). Aktivuje data — místo jen reportingu je dostává tam, kde se odehrává byznys. Nástroje: Hightouch, Census, Polytomic. Klíč k operational analytics.
Event-driven architektura
Event-driven architektura propojuje služby přes asynchronní eventy místo synchronních volání. Loose coupling, lepší škálovatelnost, přirozený audit log. Staví na Kafka, Kinesis, Pub/Sub nebo EventBridge. Vzory: event sourcing, CQRS, choreography.
Data ingestion patterns
Tři hlavní vzory: (1) full snapshot — celé tabulky každý běh, (2) incremental load — jen nové/změněné řádky podle timestampu, (3) CDC — log-based capture změn v reálném čase. Volba ovlivňuje latenci, zátěž zdroje i náklady v cloud DW.