Realizacja · IG Group

IG Group — automatyzacja KYC w 40+ językach: OCR + GPT-4 + multilingual translation

Zaprojektowałem i wdrożyłem end-to-end zautomatyzowany workflow do weryfikacji i przetwarzania międzynarodowych dokumentów KYC. OCR + GPT-4 + tłumaczenia maszynowe. Skrócenie onboardingu o 35%, 89% accuracy w 40+ językach, ponad 1200 przetworzonych dokumentów. Pełna współpraca z Compliance i Legal.

−35%

czas otwarcia konta

89%

accuracy w 40+ językach

120h+

oszczędności / m-c

1,200+

dokumentów

Kontekst

IG Group to globalny broker tradingowy notowany na londyńskiej giełdzie, obsługujący klientów w UK, USA, Polsce, Japonii, na Bermudach, w Dubaju i w kilkudziesięciu innych jurysdykcjach. Każdy nowy klient musi przejść przez KYC (Know Your Customer) — proces silnie regulowany przez FCA (UK), CFTC (US), JFSA (Japonia), DFSA (Dubai) i lokalne odpowiedniki. Dokumentacja przychodzi w kilkudziesięciu językach i w wielu formatach (paszporty, dowody osobiste, rachunki za prąd, wyciągi bankowe).

Problem

Workflow sprzed wdrożenia AI:

Każdy dokument musiał być ręcznie tłumaczony przez compliance officera lub zewnętrznego tłumacza.
Średni czas onboardingu przekraczał 2,7 dnia — wystarczająco długo, żeby potencjalny klient się rozmyślił.
Zespół compliance był wąskim gardłem; w szczytach kolejka rosła do tysięcy dokumentów.
Niespójności między regionami: różni ludzie, różne interpretacje, różne błędy.

Rozwiązanie

Zaprojektowałem zautomatyzowany pipeline KYC łączący trzy warstwy:

Warstwa OCR — ekstrakcja tekstu z obrazów i PDF-ów (paszporty, dowody, rachunki za media) z obsługą rotacji, niskiego kontrastu i fontów niełacińskich.
Warstwa multilingual NMT — tłumaczenie maszynowe wyspecjalizowane pod dokumenty urzędowe, z obsługą rzadkich par językowych (np. tajski, arabski, japoński).
Warstwa weryfikacji GPT-4 — wyciąganie ustrukturyzowanych pól (imię, data urodzenia, adres, numer dokumentu), klasyfikacja typu dokumentu, sprawdzanie spójności pól między dokumentami.

Współpraca z Compliance i Legal: każdy element pipeline’u przeszedł review pod kątem RODO, FCA SYSC i gotowości na EU AI Act. Wdrożyłem audit logging na poziomie pojedynczych zapytań do GPT-4, data residency w UE/UK i wypisanie się z trenowania modeli OpenAI.

Wyniki

Czas otwarcia konta krótszy o 35% — średnio z 2,7 dnia do 1,75 dnia.
Ponad 120 godzin ręcznego przetwarzania zaoszczędzonych miesięcznie w skali wszystkich regionów.
89% accuracy mierzone na zbiorze ground-truth obejmującym ponad 1200 dokumentów w 40+ językach.
Zero incydentów compliance w pierwszym roku produkcji.
Satysfakcja interesariuszy: zespół compliance uwolniony do zadań wymagających ludzkiego osądu, sales raportował krótszą drogę od leada do aktywnego klienta.

Czego się nauczyłem

Wielojęzyczność to nie tylko tłumaczenie — nazwy własne, daty w różnych formatach i znaki diakrytyczne wymagają osobnego pipeline’u.
OCR dla paszportów to specjalistyczny problem — sam Tesseract nie wystarczy; wyspecjalizowane modele MRZ (Machine Readable Zone) podniosły accuracy o ~12 punktów.
GPT-4 w compliance wymaga determinizmu — temperature=0, JSON schema, ścisła walidacja outputu, fallback na ludzkie review przy niskiej pewności.
Compliance i Legal jako współwłaściciele projektu, a nie blocker — włączeni od pierwszego dnia mają lepsze pomysły niż zaproszeni na końcu.