IG Group — automatyzacja KYC w 40+ językach: OCR + GPT-4 + multilingual translation
Zaprojektowałem i wdrożyłem end-to-end zautomatyzowany workflow do weryfikacji i przetwarzania międzynarodowych dokumentów KYC. OCR + GPT-4 + tłumaczenia maszynowe. Skrócenie onboardingu o 35%, 89% accuracy w 40+ językach, ponad 1200 przetworzonych dokumentów. Pełna współpraca z Compliance i Legal.
Kontekst
IG Group to globalny broker tradingowy notowany na londyńskiej giełdzie, obsługujący klientów w UK, USA, Polsce, Japonii, na Bermudach, w Dubaju i w kilkudziesięciu innych jurysdykcjach. Każdy nowy klient musi przejść przez KYC (Know Your Customer) — proces silnie regulowany przez FCA (UK), CFTC (US), JFSA (Japonia), DFSA (Dubai) i lokalne odpowiedniki. Dokumentacja przychodzi w kilkudziesięciu językach i w wielu formatach (paszporty, dowody osobiste, rachunki za prąd, wyciągi bankowe).
Problem
Workflow sprzed wdrożenia AI:
- Każdy dokument musiał być ręcznie tłumaczony przez compliance officera lub zewnętrznego tłumacza.
- Średni czas onboardingu przekraczał 2,7 dnia — wystarczająco długo, żeby potencjalny klient się rozmyślił.
- Zespół compliance był wąskim gardłem; w szczytach kolejka rosła do tysięcy dokumentów.
- Niespójności między regionami: różni ludzie, różne interpretacje, różne błędy.
Rozwiązanie
Zaprojektowałem zautomatyzowany pipeline KYC łączący trzy warstwy:
- Warstwa OCR — ekstrakcja tekstu z obrazów i PDF-ów (paszporty, dowody, rachunki za media) z obsługą rotacji, niskiego kontrastu i fontów niełacińskich.
- Warstwa multilingual NMT — tłumaczenie maszynowe wyspecjalizowane pod dokumenty urzędowe, z obsługą rzadkich par językowych (np. tajski, arabski, japoński).
- Warstwa weryfikacji GPT-4 — wyciąganie ustrukturyzowanych pól (imię, data urodzenia, adres, numer dokumentu), klasyfikacja typu dokumentu, sprawdzanie spójności pól między dokumentami.
Współpraca z Compliance i Legal: każdy element pipeline’u przeszedł review pod kątem RODO, FCA SYSC i gotowości na EU AI Act. Wdrożyłem audit logging na poziomie pojedynczych zapytań do GPT-4, data residency w UE/UK i wypisanie się z trenowania modeli OpenAI.
Wyniki
- Czas otwarcia konta krótszy o 35% — średnio z 2,7 dnia do 1,75 dnia.
- Ponad 120 godzin ręcznego przetwarzania zaoszczędzonych miesięcznie w skali wszystkich regionów.
- 89% accuracy mierzone na zbiorze ground-truth obejmującym ponad 1200 dokumentów w 40+ językach.
- Zero incydentów compliance w pierwszym roku produkcji.
- Satysfakcja interesariuszy: zespół compliance uwolniony do zadań wymagających ludzkiego osądu, sales raportował krótszą drogę od leada do aktywnego klienta.
Czego się nauczyłem
- Wielojęzyczność to nie tylko tłumaczenie — nazwy własne, daty w różnych formatach i znaki diakrytyczne wymagają osobnego pipeline’u.
- OCR dla paszportów to specjalistyczny problem — sam Tesseract nie wystarczy; wyspecjalizowane modele MRZ (Machine Readable Zone) podniosły accuracy o ~12 punktów.
- GPT-4 w compliance wymaga determinizmu — temperature=0, JSON schema, ścisła walidacja outputu, fallback na ludzkie review przy niskiej pewności.
- Compliance i Legal jako współwłaściciele projektu, a nie blocker — włączeni od pierwszego dnia mają lepsze pomysły niż zaproszeni na końcu.