Daten in Bewegung

Unter Dubletten versteht man zwei oder mehr Datensätze, die dasselbe Objekt im realen Leben (Person, Firma, Material, Produkt) beschreiben, dabei aber durchaus unterschiedliche Informationsgehalte (mehr / weniger / teilweise andere Daten) haben können.

Dubletten entstehen durch mehrfache Erfassung der Daten in einem oder mehreren Systemen, wenn das/die System(e) keinen Hinweis darauf geben (können), dass die Daten schon vorhanden sind, wenn derartige Hinweise missachtet oder fehlgedeutet werden usw.. Auch die Zusammenlegung ehemals separater Systeme, z.B. mit Kundendaten, führt häufig zu Dubletten im Zielsystem.

Die Mechanismen der Dublettenermittlung werden auch für Bestandsabgleiche (Abgleiche mehrerer Datenbestände gegeneinander) benutzt, z.B. in Produkt- oder Kundendatenbanken.

Folgeprobleme von Dubletten sind:

  • Die Informationen in den verschiedenen Datensätzen laufen auseinander.
  • Der Gesamtüberblick über die Daten zu einem Objekt fehlt.
  • Die Gefahr der teilweisen Unrichtigkeit von Daten steigt.
  • Die Prozesssicherheit im Unternehmen kann gestört werden.
  • Arbeitsaufwand, Kosten und datenschutzrechtliche Bedenken steigen.

Als sicher erkannte Dubletten lassen sich programmtechnisch zu einem einzigen Datensatz vereinen.

Darüber hinausgehende Listen mit potentiellen Dubletten, die nicht Basis für eine maschinelle Zusammenfassung von Daten der Dubletten sind, sollten grundsätzlich so erzeugt werden, dass eher zu viele als zu wenige Treffer aufgelistet werden, damit keine Fälle der Betrachtung entgehen. Eine Bearbeitung ist hier häufig nur manuell möglich.

Beispiel Personendubletten:

Die Ermittlung von Dubletten wird manchmal als trivial angesehen. Hierzu ist jedoch anzumerken, dass es sich beispielsweise bei

Meier, Horst, Kölner Landstr. 12, 44263 Dortmund, Geburtsdatum 20.12.1959

     und

Meier, Horst, Reitweg 4, 44137 Dortmund, Geburtsdatum 20.12.1959

durchaus um Dubletten handeln kann, wenn der eine Datensatz vor und der andere nach dem Umzug der Person entstanden ist.

Dagegen müssen

Müller, A., Waldweg 4, 44512 Dortmund, Geburtsdatum 20.12.1959

     und

Müller, A., Waldweg 4, 44512 Dortmund, Geburtsdatum 20.12.1959

nicht zwingend Dubletten sein. Es könnte sich auch um Zwillinge (Andreas und Andrea) handeln.

Die Ermittlung von Dubletten erfordert einige Erfahrung, z.T. auch Hintergrundwissen über die reinen Daten hinaus, z.B. zu den Umständen ihrer Entstehung und Pflegeprozessen. Dublettenermittlung ist nicht trivial, die Schwierigkeiten liegen oft im Detail!