Wśród głównych wyzwań przed jakimi stanął w obliczu wdrożenia nowego systemu billingowego nasz Klient, jeden z wiodących dystrybutorów energii elektrycznej w Polsce, była niewystarczająca jakość danych klienckich. Dane podstawowe płatników i odbiorców energii, które miały zostać zmigrowane do nowego systemu, zawierały błędnie wprowadzone adresy i dodatkowe atrybuty klientów, takie jak NIP, REGON, PESEL, imię, nazwisko, numer telefonu, czy adres e-mail. Jednocześnie w systemach źródłowych różny był stopień uzupełnienia tych danych – dane nie zawsze było kompletne. Wszystkie te czynniki wprowadzały pewien element braku zaufania do tych danych.

Wobec bardzo wysokich wymagań co do jakości danych dla nowego systemu, niezbędna była ich uprzednia weryfikacja oraz wypracowanie wspólnego modelu, pozwalającego na skuteczne przeprowadzenie migracji. Przy ponad 6 milionach rekordów klientów przeprowadzenie takiej weryfikacji w sposób manualny nie wchodziło w grę. Tym bardziej, że ręczna poprawa danych nie gwarantuje pełnej ich zgodności.  Niezbędne stało się wypracowanie mechanizmów automatycznej poprawy jakości danych.

Przy wykorzystaniu wieloletniego doświadczenia konsultantów Sanmargar Team w zagadnieniach związanych z czyszczeniem danych zostały zdefiniowane, a następnie zoptymalizowane w kilku iteracjach, automatyczne reguły czyszczące. Ich zastosowanie pozwoliło nie tylko na osiągniecie postawionych na początku projektu wyśrubowanych kryteriów poprawności danych adresowych, ale również na standaryzację danych klientów oraz ich wzbogacenie o dodatkowe informacje (np. numery kierunkowe telefonów stacjonarnych). We wdrożeniu użyte zostały autorskie rozwiązania Sanmargar DQS i Metastudio DRM. Wypracowane i zaimplementowane przy użyciu tych narzędzi algorytmy czyszczenia danych pozwalają na wielokrotne cykliczne czyszczenie danych w rozłożonym na wiele miesięcy procesie ich migracji do nowego systemu.

#dataquality #dqs #metastudio #postgresql #smartdata