Generativní AI — pojmy a praxeGenerativní AI: LLM, RAG, agenti a nasazení ve firmě
Často hledané pojmy okolo generative AI — od LLM, embeddings a vektorových databází přes RAG a AI agenty až po bezpečnost, ceny a srovnání modelů.
Co je generativní AI
Generativní AI (GenAI) označuje modely, které vytvářejí nový obsah — text, kód, obraz, audio — místo aby pouze klasifikovaly nebo predikovaly. Postavená je na velkých neuronových sítích (Transformer) trénovaných na ohromných korpusech. Pro firmy přináší produktivitu v komunikaci, dokumentaci, analytice i vývoji.
LLM — Large Language Model
LLM je velký jazykový model (GPT-4o, Claude 3.5, Gemini, Llama 3) s miliardami parametrů. Pracuje s tokenovou reprezentací textu, kontextovým oknem (typicky 128k–1M tokenů) a generuje odpověď token po tokenu. Klíčové parametry: kontext, latence, cena za 1M tokenů, podpora multimodality a tool callingu.
RAG — Retrieval-Augmented Generation
RAG propojuje LLM s firemními daty bez nutnosti trénovat model. Pipeline: dokumenty se rozdělí na chunks, převedou na embeddings, uloží do vektorové databáze. Při dotazu se najdou relevantní pasáže a vloží do promptu jako kontext. Výsledkem jsou odpovědi s citacemi na zdroj a aktuálními daty.
Embeddings a vektorové databáze
Embedding je numerický vektor reprezentující význam textu — sémanticky podobné věty mají blízké vektory. Vektorové databáze (pgvector, Pinecone, Weaviate, Qdrant, Milvus) umožňují rychlé similarity search nad miliony dokumentů. Tvoří základ RAG a sémantického vyhledávání.
Fine-tuning vs RAG vs prompt engineering
Prompt engineering je nejlevnější — ladění instrukcí v promptu. RAG přidává externí znalost bez změny modelu (rychlé nasazení, snadná aktualizace dat). Fine-tuning přetrénuje model na vlastních datech — vhodný pro specifický styl nebo doménu, ale dražší a méně flexibilní. Většina firem začíná RAG a fine-tuning přidává jen v konkrétních případech.
AI agenti a tool calling
AI agent je LLM s přístupem k nástrojům (API, databáze, kalkulačky, search) a schopností plánovat multi-step úkoly. Tool calling (function calling) umožňuje modelu volat strukturované funkce. Frameworky: LangChain, LlamaIndex, OpenAI Assistants, Microsoft AutoGen, CrewAI. Vhodné pro workflow automation, research a operativní úkoly.
Multimodální modely
Multimodální LLM (GPT-4o, Gemini, Claude 3.5) zpracovávají text, obraz, audio i video v jednom modelu. Využití: analýza dokumentů a faktur, OCR plus pochopení kontextu, popis obrazu, voice asistenti, video summary. Eliminují potřebu samostatných OCR/CV pipeline pro většinu úloh.
Bezpečnost a privátnost dat v GenAI
Pro citlivá data nepoužívejte veřejné chatboty. Bezpečné varianty: Azure OpenAI (data nezůstávají u poskytovatele, EU regiony), AWS Bedrock, GCP Vertex AI s privátním VPC, nebo on-premise open-source LLM (Llama 3, Mistral). Doplňte o data loss prevention, prompt injection ochranu a audit log všech dotazů.
Halucinace a jak je omezit
Halucinace je výmysl modelu prezentovaný jako fakt. Hlavní obrany: RAG s citacemi zdrojů, nižší teplota (temperature 0–0.3) pro faktické úlohy, structured outputs s JSON schema, validace výstupu, human-in-the-loop pro kritická rozhodnutí, evaluation set s known-answer testy a kontinuální monitoring kvality.
Ceny LLM a optimalizace nákladů
Účtuje se za vstupní a výstupní tokeny (USD za 1M). Hlavní páky úspor: cachování opakovaných promptů (Anthropic prompt caching, OpenAI cached input), menší/levnější model pro jednodušší úlohy (GPT-4o-mini, Claude Haiku, Gemini Flash), shortening kontextu chytrým RAG, batch API pro asynchronní úlohy (až −50 %), monitoring spotřeby per use-case.
Srovnání hlavních LLM modelů
GPT-4o (OpenAI) — univerzální, silný v reasoningu a multimodalitě. Claude 3.5 Sonnet (Anthropic) — vynikající na kód, dlouhý kontext, méně halucinací. Gemini 2.0 (Google) — 1M+ kontext, nativní multimodalita, dobrá cena. Llama 3.3 / Mistral — open-source pro on-premise. Volba podle úlohy, ceny, latence a požadavků na data residency.
Měření kvality a ROI generativní AI
Kvalita: evaluation framework (LLM-as-a-judge, lidská anotace, kontingenční metriky precision/recall pro RAG), A/B testy proti baseline. ROI: ušetřený čas (FTE × hodinová sazba), snížení nákladů na podporu, throughput (zpracovaných případů/den), kvalita (méně chyb, vyšší NPS). Bez měření končí GenAI projekty jako drahé hračky.