Ponad 6 milionów klientów w posiadanych bazach danych a tylko około 3 milionów rzeczywistych klientów? Jak nie zmigrować do nowo wdrażanego systemu całego bagażu zduplikowanych czy zwielokrotnionych rekordów klienckich? Jak wśród nich rozpoznać przypadki różnych punktów poboru energii, ale w istocie jednego i tego samego odbiorcy, płatnika? Jak wreszcie zapewnić sobie możliwość własnoręcznej automatycznej poprawy jakości danych na każdym z etapów migrowania danych do nowego systemu? Te pytania musiał sobie postawić nasz Klient – wiodący dystrybutor energii elektrycznej.

Proces migracji danych z kilku systemów do jednego, nowo wdrażanego rzadko jest dzisiaj jednym zdarzeniem. Najczęściej jest to proces rozłożony w czasie, realizowany etapowo. Tak też dzieje się w przypadku naszego Klienta, dużego dystrybutora energii elektrycznej w Polsce. Oczywiście wiąże się to z dodatkowymi wyzwaniami, z którymi musi się zmierzyć zespół, odpowiedzialny za migrację. Rozciągnięcie procesu na okres wielu miesięcy oznacza między innymi, że nie wystarczy jednorazowe wyczyszczenie danych przed ich załadowaniem do nowego systemu. W starych, etapowo wyłączanych systemach, te dane żyją nadal i nadal wymagają w chwili przenoszenia ich uprzedniej automatycznej weryfikacji i poprawy. Ze względów kosztowych, ale i organizacyjnych trudno za każdym razem czyścić te dane, korzystając z usług zewnętrznych dostawców.

Opierając się na regułach i algorytmach, wypracowanych w realizowanym wcześniej u Klienta projekcie jednorazowej usługi czyszczenia danych, konsultanci Sanmargar Team zbudowali rozwiązanie do automatycznego, cyklicznego czyszczenia danych. Rozwiązanie zostało zrealizowane przy wykorzystaniu technologii Sanmargar DQS. Pozwoliło ono Klientowi na samodzielne, wielokrotne czyszczenie danych w momentach wyznaczanych harmonogramem projektu migracji i nie wymagających każdorazowego uzgadniania z dostawcą i uzależnienia od jego dyspozycyjności. Dodatkowo uzyskano możliwość stałego monitorowania jakości i ewentualnej poprawy danych zmigrowanych do nowego systemu na wcześniejszych etapach projektu.

Osobnym zagadnieniem w projekcie migracji stała się kwestia powtórzeń tych samych klientów w dotychczasowych kilku systemach źródłowych. Duplikaty zdarzały się nie tylko pomiędzy systemami, ale również w obrębie tego samego systemu. Skalę zjawiska może oddawać fakt, że liczba rekordów „klienckich” w posiadanych bazach danych była dwukrotnie większa niż rzeczywista ich liczba. Z oczywistych względów należało uniknąć przeniesienia nadmiarowych rekordów do nowego systemu. Pewnym problemem była też poprawna identyfikacja przypadków, w których jeden klient miał kilka punktów poboru i z tego względu figurował w systemie jako cały szereg odrębnych klientów. Wiele biznesowych racji przemawia za tym, żeby takie przypadki móc identyfikować jednoznacznie. W ramach tworzonego narzędzia do automatycznego czyszczenia i standaryzacji danych został w tym celu zbudowany moduł deduplikacji klientów. Pozwolił on w oparciu o wystandaryzowane dane klientów i zbudowane specjalnie w tym celu reguły deduplikacji na wskazanie zarówno powtórzeń klientów w deduplikowanych zbiorach danych, jak i oznaczyć identyfikatorem grupy te przypadki, w których różne punkty poboru energii w istocie oznaczały tego samego klienta. Podobnie jak w przypadku automatycznego czyszczenia danych, procesy deduplikacji zostały zbudowane w taki sposób, aby możliwe było ich samodzielne, cykliczne uruchamianie w dowolnym momencie, całkowicie bez udziału dostawcy.

 

#smartdata #deduplikacja #dqs