Data Cleansing
Auf 15 Millionen US-Dollar schätzen Unternehmen laut einer Gartner-Studie den Schaden, der ihnen jedes Jahr aufgrund schlechter Datenqualität entsteht. Datenbestände haben einen hohen unternehmerischem Wert, allerdings nur, wenn sie gepflegt und bereinigt werden und somit eine hohe Qualität ausweisen. Unternehmen, die Data Cleansing in ihr Datenmanagement integrieren, müssen zunächst investieren – stärken jedoch auf mittlere und lange Sicht ihre Zukunftsfähigkeit.
Definition: Was ist Data Cleansing?
Data Cleansing (auch Data Cleaning) ist ein wesentlicher und aktiver Teil im Data Quality Management und beschreibt den Vorgang, fehlerhafte, ungenaue, redundante und beschädigte Daten in Datenbeständen zu korrigieren. Teilweise werden Daten entfernt, teilweise korrigiert oder ergänzt.
Je mehr Datenquellen in Unternehmen integriert werden, desto größer die Gefahr, dass sich die Datenqualität verschlechtert, zum Beispiel weil unterschiedliche Formate vom Zielsystem nicht fehlerfrei erkannt werden, Redundanzen die Datenbasis verzerren oder Daten versehentlich gelöscht werden. Da eine schlechte Datenqualität für den Anwender nur selten offensichtlich ist, sollte Data Cleansing als Standardprozess ins Datenmanagement mit aufgenommen werden.
Warum ist Data Cleansing notwendig?
Eine hohe Datenqualität ist ein bedeutsamer Wettbewerbsfaktor: Die Treffsicherheit von Analysen, die Kundenzufriedenheit und der Umsatz hängen direkt oder indirekt von der Datenqualität ab.
Die fortgeschrittensten BI- und Analytics-Anwendungen nützen wenig, wenn sie ihre Auswertungen und Prognosen auf einer fehlerhaften Datenbasis erstellen. Welche neuen Produkte haben die besten Erfolgsaussichten? Sollte die Expansion in einen neuen Markt verfolgt werden? Eine verlässliche Datenbasis kann strategische Entscheidungen absichern.
Auch Marketing und Produktentwicklung basieren immer häufiger auf Datenanalysen zu Kunden- und Nutzerverhalten. Fehlerhafte Datenbestände führen zu falschen Schlussfolgerungen und Investitionen laufen ins Leere. Umgekehrt können Unternehmen mit Maßnahmen, die auf einer Datenbasis von hoher Qualität beruhen, die Zufriedenheit ihrer Kunden kosteneffizient erhöhen und Vertriebskosten massiv senken.
Aber nicht nur Produktentwicklung, Marketing und Strategie profitieren von Data Cleansing. Auch die Optimierung interner Prozesse läuft wesentlich kosteneffizienter und erfolgsversprechender, wenn sie auf einer guten Datengrundlage basieren. Welche Aufgaben erfordern überproportional viel Zeit? In welchen Abteilungen sinkt die Arbeitszufriedenheit? Bei richtiger Interpretation können Führungskräfte Daten nutzen, um die Produktivität und Mitarbeitermotivation in ihren Teams zu verbessern.
Vorteile von Datenbereinigung im Überblick
- Verlässlichere Entscheidungsgrundlagen
- Interne Prozessoptimierungen
- Höhere Kundenzufriedenheit
- Vereinfachte Kundengewinnung
- Verbesserte Erfolgschancen neuer Produkte
7 Schritte eines erfolgreichen Data-Cleansing-Prozesses
Es gibt keinen Goldstandard für den Data-Cleansing-Prozess. Das Vorgehen richtet sich nach den jeweiligen Daten, der IT-Infrastruktur und den angestrebten Zielen des Unternehmens.
Sinnvoll sind sowohl ein regelmäßiges Data Cleansing von zentralen Unternehmensdaten wie Stammdaten als auch eine projektbezogene Datenbereinigung, zum Beispiel weil Systeme migriert wurden oder neue Schnittstellen implementiert wurden bzw. als Vorbereitung darauf.
Unternehmen sollten für den jeweiligen Anwendungsfall ihre eigene Data Cleansing Strategy entwickeln, damit sie Effizienz und Konsistenz der Ergebnisse sicherstellen.
Zur Entwicklung eines Data-Cleansing-Prozesses können sich Unternehmen an folgender Roadmap orientieren:
1. Relevante Daten identifizieren
Zunächst sollten die Daten identifiziert werden, die für den auszuwertenden Prozess irrelevant sind. Wenn es sich um ein einmaliges Data-Cleansing-Projekt handelt, gilt das Gleiche: Variablen, die nicht zur Beantwortung der Projektfrage beitragen, werden gelöscht bzw. nicht in die zentrale Datenbank überführt. Die relevanten Daten werden für die Bereinigung aufbereitet.
2. Duplikate entfernen
Mithilfe von Ähnlichkeitsalgorithmen oder auf Basis einer aktuellen Datenbank, die als Single Source of Truth dient, werden doppelte Werte erfasst und aus dem Datensatz entfernt.
3. Strukturelle Datenfehler korrigieren
Beim Import von Daten von einem System in ein anderes können Datenfehler auftreten. Werden beim Import von Kundendaten aus dem ERP-System in das CRM-System Dateiformate angepasst, kann dies zu falschen Kategorie-Bezeichnungen oder Falschschreibungen führen. Im Data Cleansing werden die Fehler erkannt und manuell oder automatisiert behoben und die Daten in ein einheitliches Format überführt.
4. Rechtschreibfehler beheben
Wenn String-Werte bzw. Texte analysiert werden, müssen auch sie in einem einheitlichen Format vorliegen. Rechtschreibfehler, zum Beispiel Buchstabendreher bei Städtenamen oder unterschiedliche Datumsformate (europäische vs. amerikanische Schreibung), können Algorithmen in ihrer Analyse „verwirren“. Daher sollten Unternehmen Standards definieren, nach denen der Datenbestand bereinigt wird.
5. Fehlende Werte klären
Wer ausreichend viele Datensätze speichert, kennt früher oder später das Problem fehlender Werte. Mal ist eine Postleitzahl nicht eingetragen, mal fehlt die Telefonnummer. Damit Algorithmen reibungslos mit Datensätzen arbeiten können, müssen diese jedoch vollständig sein. Daher gehört zum Data Cleansing fehlende Werte zu ergänzen, sofern dies mit vertretbarem Aufwand möglich ist. Wenn dies nicht der Fall ist, bleibt die Möglichkeit den gesamten Datensatz zu löschen oder einen standardisierten Fehler-Wert (Null) nachzupflegen.
6. Reporting
Nach der Datenbereinigung muss die Qualität der Ergebnisse geprüft werden, damit gegebenenfalls methodische Anpassungen vorgenommen werden können, um restliche Datenfehler zu minimieren. Viele Anwendungen für Data Cleansing bieten im Standard das Erstellen von Reports an, die Nutzer individuell konfigurieren können.
7. Qualitätssicherung
Unternehmen sollten den Prozess ihres Data Cleansings regelmäßig mit Anwendern reflektieren: Ist der Funktionsumfang der Data Cleansing Software zufriedenstellend? Wo besteht aus Sicht involvierter Teams im Prozess Verbesserungspotenzial? Ist das Prüfungsintervall angemessen? Die Antworten liefern wertvolle Impulse, um die Datenqualität weiter zu steigern.
Stammdatenbereinigung - Data Cleansing als Teil von Master Data Management
Master Data Management ist eine Schlüsseldisziplin der digitalen Transformation. Wie Unternehmen beispielsweise Produktdaten und Stammdaten organisieren, ist entscheidend für ihre Wettbewerbsposition. Die Daten müssen nicht nur schnell verfügbar sein und sicher gespeichert werden. Sie sollten auch fehlerfrei, konsistent und zuverlässig vorliegen, damit Unternehmen Ineffizienz, Umsatzeinbußen und Reputationsschäden vermeiden.
Kunden verlassen sich auf Produktinformationen. Wenn sie andere als die beschriebene Ware erhalten, verlieren sie das Vertrauen ins Unternehmen. Firmen müssen neben dem Imageschaden auch Mehrkosten für die Retoure in Kauf nehmen. Auch intern ist der Schaden mangelnder Datenqualität groß: Marketing-Mitarbeiter benötigen für viele Online-Kampagnen Stammdaten der Kunden. Wenn sie sich nicht auf eine hohe Datenqualität verlassen können, verlangsamt das die Prozesse durch vermeidbare Gegenchecks.
Auch für weitreichende strategische Entscheidungen werden Stammdaten ausgewertet. Eine schlechte Datenqualität kann Fehlentscheidungen verursachen, die Schäden in Millionenhöhe nach sich ziehen.
Häufige Fragen rund um Data Cleansing
-
Die Begriffe werden häufig synonym verwendet. Branchenstandards wie der Data Management Body of Knowledge verwenden eher Data Cleansing für den Vorgang der Datenbereinigung, sodass wir diese Sprachregelung empfehlen. Falsch ist jedoch keine der beiden. Data Scrubbing ist ein dritter Begriff, der synonym für den Vorgang der Datenbereinigung verwendet wird.
-
Eine hohe Datenqualität liegt immer dann vor, wenn die erhobenen Daten für den vorgesehenen Verwendungszweck gut geeignet sind. Über welche Variablen die Eignung gemessen wird, ist je nach Einsatzszenario unterschiedlich. Häufig ziehen Unternehmen Kriterien wie Vollständigkeit, Konsistenz, Korrektheit, Eindeutigkeit und Aktualität heran, um die Datenqualität zu quantifizieren.
-
Data Scrubbing beschreibt eine konkrete Datenbereinigungsmethode, die Datenbestände regelmäßig und automatisiert auf Fehler prüft und diese korrigiert, ehe sich die Fehler summieren. Der Vorgang läuft im Hintergrund ab, manuelles Eingreifen ist nicht erforderlich. Häufig wird der Begriff jedoch einfach synonym für Data Cleansing genutzt.
Bessere Datenqualität, bessere Entscheidungen