Audyt RAG
Audyt RAG — Audyt RAG (Retrieval-Augmented Generation) to systematyczny przegląd produkcyjnego systemu RAG pod kątem jakości pobierania (retrieval), generowania (generation), kosztów i bezpieczeństwa. Wynikiem jest uszeregowana lista napraw: od strategii chunkingu i wyboru modelu embeddingowego, przez framework ewaluacji, po optymalizację kosztów wywołań LLM.
Co sprawdza audyt RAG
- Strategia chunkingu — jak duże są fragmenty dokumentów wstrzykiwane do LLM, czy zachowują kontekst, jak są oznaczane metadanymi.
- Model embeddingowy — czy rozumie domenę (finanse, prawo, medycyna) i czy nie jest niepotrzebnie drogi.
- Vector DB — wybór i konfiguracja (ChromaDB, Pinecone, Vertex AI Vector Search, pgvector), indeksowanie, filtrowanie.
- Ewaluacja retrievalu — recall@k, MRR (Mean Reciprocal Rank), pokrycie typowych zapytań.
- Prompt generacyjny — czy model dostaje czytelny kontekst i jasne instrukcje, jak unikać halucynacji.
- Metryki end-to-end — faithfulness, answer relevance, hallucination rate, latencja, koszt na zapytanie.
- Bezpieczeństwo — czy w embeddingach są dane osobowe (RODO), czy prompt-injection jest blokowany.
Częste pułapki
- Brak ewaluacji w ogóle — system „działa”, bo product manager przetestował 5 zapytań.
- Generyczny model embeddingowy w niszowej domenie —
all-MiniLM-L6-v2w polskim prawie podatkowym to ślepa uliczka. - Retrieval jednoetapowy — zaawansowany RAG używa multi-hop, hybrid search i rerankerów.
- Vector DB jako jedyny indeks — w wąsko zdefiniowanych domenach BM25 + filtrowanie bije dense vectors.
- Brak monitoringu jakości — system degraduje się przy nowych dokumentach, a nikt tego nie zauważa.
Jak fewtokensai pomaga
Robię audyty RAG w 1–2 tygodnie, z konkretnym raportem uszeregowanym pod ROI. Mam doświadczenie z produkcyjnym RAG-iem (IG Group: chatbot nad wewnętrzną bazą wiedzy, ponad 100 tys. USD rocznych oszczędności). Umów audyt lub przeczytaj o usłudze Enterprise RAG.