Słownik AI

Audyt RAG

Audyt RAG — Audyt RAG (Retrieval-Augmented Generation) to systematyczny przegląd produkcyjnego systemu RAG pod kątem jakości pobierania (retrieval), generowania (generation), kosztów i bezpieczeństwa. Wynikiem jest uszeregowana lista napraw: od strategii chunkingu i wyboru modelu embeddingowego, przez framework ewaluacji, po optymalizację kosztów wywołań LLM.

Co sprawdza audyt RAG

Strategia chunkingu — jak duże są fragmenty dokumentów wstrzykiwane do LLM, czy zachowują kontekst, jak są oznaczane metadanymi.
Model embeddingowy — czy rozumie domenę (finanse, prawo, medycyna) i czy nie jest niepotrzebnie drogi.
Vector DB — wybór i konfiguracja (ChromaDB, Pinecone, Vertex AI Vector Search, pgvector), indeksowanie, filtrowanie.
Ewaluacja retrievalu — recall@k, MRR (Mean Reciprocal Rank), pokrycie typowych zapytań.
Prompt generacyjny — czy model dostaje czytelny kontekst i jasne instrukcje, jak unikać halucynacji.
Metryki end-to-end — faithfulness, answer relevance, hallucination rate, latencja, koszt na zapytanie.
Bezpieczeństwo — czy w embeddingach są dane osobowe (RODO), czy prompt-injection jest blokowany.

Częste pułapki

Brak ewaluacji w ogóle — system „działa”, bo product manager przetestował 5 zapytań.
Generyczny model embeddingowy w niszowej domenie — all-MiniLM-L6-v2 w polskim prawie podatkowym to ślepa uliczka.
Retrieval jednoetapowy — zaawansowany RAG używa multi-hop, hybrid search i rerankerów.
Vector DB jako jedyny indeks — w wąsko zdefiniowanych domenach BM25 + filtrowanie bije dense vectors.
Brak monitoringu jakości — system degraduje się przy nowych dokumentach, a nikt tego nie zauważa.

Jak fewtokensai pomaga

Robię audyty RAG w 1–2 tygodnie, z konkretnym raportem uszeregowanym pod ROI. Mam doświadczenie z produkcyjnym RAG-iem (IG Group: chatbot nad wewnętrzną bazą wiedzy, ponad 100 tys. USD rocznych oszczędności). Umów audyt lub przeczytaj o usłudze Enterprise RAG.

Co sprawdza audyt RAG

Częste pułapki

Jak fewtokensai pomaga

Porozmawiajmy.