Przejdź do treści
fewtokensai
Realizacja · IG Group

IG Group — automatyzacja KYC w 40+ językach: OCR + GPT-4 + multilingual translation

Zaprojektowałem i wdrożyłem end-to-end zautomatyzowany workflow do weryfikacji i przetwarzania międzynarodowych dokumentów KYC. OCR + GPT-4 + tłumaczenia maszynowe. Skrócenie onboardingu o 35%, 89% accuracy w 40+ językach, ponad 1200 przetworzonych dokumentów. Pełna współpraca z Compliance i Legal.

−35%
czas otwarcia konta
89%
accuracy w 40+ językach
120h+
oszczędności / m-c
1,200+
dokumentów

Kontekst

IG Group to globalny broker tradingowy notowany na londyńskiej giełdzie, obsługujący klientów w UK, USA, Polsce, Japonii, na Bermudach, w Dubaju i w kilkudziesięciu innych jurysdykcjach. Każdy nowy klient musi przejść przez KYC (Know Your Customer) — proces silnie regulowany przez FCA (UK), CFTC (US), JFSA (Japonia), DFSA (Dubai) i lokalne odpowiedniki. Dokumentacja przychodzi w kilkudziesięciu językach i w wielu formatach (paszporty, dowody osobiste, rachunki za prąd, wyciągi bankowe).

Problem

Workflow sprzed wdrożenia AI:

  • Każdy dokument musiał być ręcznie tłumaczony przez compliance officera lub zewnętrznego tłumacza.
  • Średni czas onboardingu przekraczał 2,7 dnia — wystarczająco długo, żeby potencjalny klient się rozmyślił.
  • Zespół compliance był wąskim gardłem; w szczytach kolejka rosła do tysięcy dokumentów.
  • Niespójności między regionami: różni ludzie, różne interpretacje, różne błędy.

Rozwiązanie

Zaprojektowałem zautomatyzowany pipeline KYC łączący trzy warstwy:

  1. Warstwa OCR — ekstrakcja tekstu z obrazów i PDF-ów (paszporty, dowody, rachunki za media) z obsługą rotacji, niskiego kontrastu i fontów niełacińskich.
  2. Warstwa multilingual NMT — tłumaczenie maszynowe wyspecjalizowane pod dokumenty urzędowe, z obsługą rzadkich par językowych (np. tajski, arabski, japoński).
  3. Warstwa weryfikacji GPT-4 — wyciąganie ustrukturyzowanych pól (imię, data urodzenia, adres, numer dokumentu), klasyfikacja typu dokumentu, sprawdzanie spójności pól między dokumentami.

Współpraca z Compliance i Legal: każdy element pipeline’u przeszedł review pod kątem RODO, FCA SYSC i gotowości na EU AI Act. Wdrożyłem audit logging na poziomie pojedynczych zapytań do GPT-4, data residency w UE/UK i wypisanie się z trenowania modeli OpenAI.

Wyniki

  • Czas otwarcia konta krótszy o 35% — średnio z 2,7 dnia do 1,75 dnia.
  • Ponad 120 godzin ręcznego przetwarzania zaoszczędzonych miesięcznie w skali wszystkich regionów.
  • 89% accuracy mierzone na zbiorze ground-truth obejmującym ponad 1200 dokumentów w 40+ językach.
  • Zero incydentów compliance w pierwszym roku produkcji.
  • Satysfakcja interesariuszy: zespół compliance uwolniony do zadań wymagających ludzkiego osądu, sales raportował krótszą drogę od leada do aktywnego klienta.

Czego się nauczyłem

  • Wielojęzyczność to nie tylko tłumaczenie — nazwy własne, daty w różnych formatach i znaki diakrytyczne wymagają osobnego pipeline’u.
  • OCR dla paszportów to specjalistyczny problem — sam Tesseract nie wystarczy; wyspecjalizowane modele MRZ (Machine Readable Zone) podniosły accuracy o ~12 punktów.
  • GPT-4 w compliance wymaga determinizmu — temperature=0, JSON schema, ścisła walidacja outputu, fallback na ludzkie review przy niskiej pewności.
  • Compliance i Legal jako współwłaściciele projektu, a nie blocker — włączeni od pierwszego dnia mają lepsze pomysły niż zaproszeni na końcu.
Porozmawiajmy o Twoim AI

Porozmawiajmy.

30 minut bez zobowiązań. Opowiedz, gdzie utknęło wdrożenie AI lub co planujesz — wyjdziesz z rozmowy z konkretnymi krokami.