Die Matrix ist eine spaltenorientierte, abstrakte Kriteriensammlung, mit deren Hilfe die Entscheidung getroffen wird, ob zwei verglichene Datensätze ähnlich sind oder nicht, und auch festgestellt wird, um welchen Dublettentyp es sich handelt.
Die Definition der Dublettentypen (z. B. sichere Dubletten, gleiche Adresse bei unterschiedlichen Firmennamen oder Umzügler) wird im Data Quality Server voreingestellt.
Dazu werden Ähnlichkeitswerte gegen die Bedingungen der einzelnen Matrixspalten geprüft. Werden alle Bedingungen der aktuellen Spalte erreicht, werden die verglichenen Datensätze einander zugeordnet.
Wird auch nur eine der Bedingungen der aktuellen Spalte nicht erreicht, werden die ermittelten Werte gegen die darauf folgende Matrixspalte geprüft.
Ist keine Spalte mehr vorhanden, gegen die geprüft werden kann, und aus keiner Spalte wurden alle Bedingungen erfüllt, werden die beiden Datensätze einander nicht zugeordnet.
Einstellungen
FACT (Checkbox): Wird die Option gesetzt, arbeitet der Data Quality Server nur mit den FACT- Algorithmen (besonders schnell).
Entscheidungsmatrix
Die Matrix selbst besteht aus den Feldnamen, aus den zugeordneten Typen sowie aus den Spalten mit den prozentualen Gewichtungen der Werte.
Eine Tabelle der Entscheidungsmatrix besteht aus den folgenden Spalten:
Beim Anlegen einer neuen Matrix sollten Sie darauf achten den Feldnamen der Matrix die gleiche Bezeichnung wie den Feldnamen der Datenverbindung (z. B. einer Datenziel-Tabelle) zuzuordnen, auf welche die Matrix angewandt wird. Sollten Sie dies nicht wünschen, müssen die Felder der Matrix über eine Feldzuordnung den Feldern der Datenverbindung zugewiesen werden. Mehr dazu erfahren Sie im Kapitel Feldzuordnungen. |
Zusätzlich gibt es noch ein Entscheidungskriterium, wie mit leeren Feldinhalten umgegangen werden soll. Dazu drei Beispiele:
Die Entscheidungskriterien können in einem Feld per Rechtsklick aufgerufn werden sind wie folgt definiert:
Unabhängig vom eingestellten Prozentwert würden nun folgende Beispiele zugeordnet werden:
Sind die Felder und Feldtypen eingetragen, ist jede Spalte ein Kriterium, das komplett erfüllt werden muss. In der Beispiel-Darstellung gibt es drei zu vergleichende Spalten.
Werden nun zwei Datensätze miteinander verglichen, geht der Data Quality Server wie folgt vor:
Er nimmt den Inhalt beider Datensätze aus dem Feld „Firma“, vergleicht diese und überprüft, ob eine Übereinstimmung von mindestens 90% erfüllt ist.
Werden 90% erfüllt, nimmt der Data Quality Server den Inhalt aus dem Feld „Strasse“ und überprüft, ob mindestens eine Übereinstimmung von 80% erfüllt ist.
Wird bei dem Feld „Strasse“ eine Übereinstimmung von mindestens 80% gefunden, nimmt der Data Quality Server die Inhalte des Feldes „PLZ“ und überprüft diese mit dem eingestellten Prozentwert.
Das macht der Data Quality Server mit allen Feldern aus der Name-Spalte. Wenn alle eingestellten Kriterien zutreffen, werden beide Datensätze einander anhand dieser Matrixspalte zugeordnet.
Wird ein einziger eingestellter Prozentwert nicht erreicht, können die beiden Datensätze dieser Matrixspalte nicht zugeordnet werden.
Der Data Quality Server überprüft nun die zwei Datensätze mit der nächsten Matrixspalte. In dieser Matrixspalte geht er genauso vor wie in der ersten Matrixspalte, jedoch vergleicht er die zwei Datensätze mit den neuen Prozentwerten.
Wenn keine einzige Matrixspalte zutrifft, werden die zwei zu vergleichenden Datensätze einander nicht zugeordnet.
Mit können Sie Ihre vorgenimmenen Matrixeinstellung speichern. Diese ist dann im Menue unter Matritzen zur Be- und Verarbeitung verfügbar.