Die Matrix ist eine spaltenorientierte, abstrakte Kriteriensammlung, mit deren Hilfe die Entscheidung getroffen wird, ob zwei verglichene Datensätze ähnlich sind oder nicht, und auch festgestellt wird, um welchen Dublettentyp es sich handelt.
Die Definition der Dublettentypen (z. B. sichere Dubletten, gleiche Adresse bei unterschiedlichen Firmennamen oder Umzügler) wird im Data Quality Server voreingestellt.
Dazu werden Ähnlichkeitswerte gegen die Bedingungen der einzelnen Matrixspalten geprüft. Werden alle Bedingungen der aktuellen Spalte erreicht, werden die verglichenen Datensätze einander zugeordnet.
Wird auch nur eine der Bedingungen der aktuellen Spalte nicht erreicht, werden die ermittelten Werte gegen die darauffolgende Matrixspalte geprüft.
Ist keine Spalte mehr vorhanden, gegen die geprüft werden kann, und aus keiner Spalte wurden alle Bedingungen erfüllt, werden die beiden Datensätze einander nicht zugeordnet.
Matrixeinstellungen
Einstellungen
- Name: Unter dem von Ihnen gewählten Namen wird die Matrix gespeichert und vom Data Quality Server angesprochen.
- Gemischt (Checkbox): Wird diese Option gesetzt, kann der Data Quality Server mit allen zur Verfügung stehenden Ähnlichkeits-Algorithmen arbeiten (je Feld aber nur einer). Der gewünschte Algorithmus kann in der Typ-Spalte je Feld unterschiedlich eingestellt werden.
- International (Checkbox): Wird diese Option gesetzt, haben Sie bei der Auswahl des Typs alle Regelsätze, die bei den WorldMatch Regelsätzen eingestellt wurden. Beachten Sie dabei: Wird diese Option gesetzt, arbeitet der Data Quality Server mit WorldMatch und nicht mehr mit FACT (mächtiger und flexibler, aber langsamer.
FACT (Checkbox): Wird die Option gesetzt, arbeitet der Data Quality Server nur mit den FACT-Algorithmen (besonders schnell).
Entscheidungsmatrix
- Zeile hinzufügen: Fügt eine Zeile an unterster Stelle in der Matrix hinzu.
- Zeile entfernen: Löscht die aktuell ausgewählte Zeile.
- Spalte hinzufügen: Öffnet ein Fenster, in dem Sie einen Spaltennamen eingeben können. Mit einem Klick auf OK wird eine Spalte eingefügt, in der Sie nun einen neuen Dublettentyp definieren können.
- Spalte entfernen: Löscht die aktuell ausgewählte Spalte.
- Feste Spaltenbreite (Checkbox): Stellen Sie hier bei Bedarf eine einheitliche Breite für die Ansicht der Matrix-Spalten ein.
- Spaltennummern anzeigen (Checkbox): Anstatt der Spaltennamen wird bei Auswahl dieser Option die Ordnungsnummer angezeigt.
Matrixaufbau
Die Matrix selbst besteht aus den Feldnamen, aus den zugeordneten Typen sowie aus den Spalten mit den prozentualen Gewichtungen der Werte.
Eine Tabelle der Entscheidungsmatrix besteht aus den folgenden Spalten:
- Name: Mit den Feldnamen wählen Sie aus, welche Felder aus Ihrer Datenverbindung verglichen werden.
Beim Anlegen einer neuen Matrix sollten Sie darauf achten den Feldnamen der Matrix die gleiche Bezeichnung wie den Feldnamen der Datenverbindung (z. B. einer Datenziel-Tabelle) zuzuordnen, auf welche die Matrix angewandt wird.
Sollten Sie dies nicht wünschen, müssen die Felder der Matrix über eine Feldzuordnung den Feldern der Datenverbindung zugewiesen werden. Mehr dazu erfahren Sie im Kapitel Feldzuordnungen.
- Typ: Hier wählen Sie aus einem Dropdown den gewünschten WorldMatch-Regelsatz je Zeile aus.
- Ist die Einstellungsoption Gemischt aktiviert, stehen Ihnen alle Regeln zur Verfügung, die als WorldMatch-Regelsätze angelegt sind. Außerdem stehen erweiterte FACT-Regelsätze und die benutzerdefinierten Feldtypen zur Verfügung.
- Ist die Einstellungsoption International aktiviert, stehen Ihnen alle Regeln zur Verfügung, die als WorldMatch-Regelsätze angelegt sind.
- Ist die Option auf FACT gesetzt, ist Ihre Auswahl auf „Normal“, „Hausnummer“ und „Attribute“ begrenzt.
- Ist die Einstellungsoption Gemischt aktiviert, stehen Ihnen alle Regeln zur Verfügung, die als WorldMatch-Regelsätze angelegt sind. Außerdem stehen erweiterte FACT-Regelsätze und die benutzerdefinierten Feldtypen zur Verfügung.
- Werte: Die Bezeichnung für eine Wertespalte können Sie nach dem Hinzufügen einer Spalte frei vergeben. Wenn zwei Feldinhalte miteinander verglichen werden, errechnen FACT oder WorldMatch einen Ähnlichkeitswert und geben ein Ergebnis zwischen 0 und 100 Prozent aus. Mit diesen Werten wird eingestellt, welche prozentuale Übereinstimmung zwischen den Feldinhalten erreicht werden muss, damit diese als Dublette markiert werden.
Zusätzlich gibt es noch ein Entscheidungskriterium, wie mit leeren Feldinhalten umgegangen werden soll. Dazu drei Beispiele:
- Beispiel A:
Companyfeld Tabelle 1 = Omikron Data Quality GmbH
Companyfeld Tabelle 2 = Omikron Data Quality GmbH - Beispiel B:
Companyfeld Tabelle 1 = Omikron Data Quality GmbH
Companyfeld Tabelle 2 = [kein Feldinhalt] - Beispiel C:
Companyfeld Tabelle 1 = [kein Feldinhalt]
Companyfeld Tabelle 2 = [kein Feldinhalt]
Die Entscheidungskriterien können in einem Feld per Rechtsklick aufgerufen werden sind wie folgt definiert:
- Felder dürfen leer sein: Dieses Kriterium ist eingestellt, wenn der Wert in normaler Schriftart dargestellt wird (z. B. „80“).
- Felder müssen befüllt sein: Dieses Kriterium ist eingestellt, wenn der Wert in fetter Schriftart dargestellt wird (z. B. „80“).
- Beide Felder müssen leer oder beide müssen befüllt sein: Dieses Kriterium ist eingestellt, wenn der Wert in kursiver Schriftart dargestellt wird (z. B. „80“).
Unabhängig vom eingestellten Prozentwert würden nun folgende Beispiele zugeordnet werden:
- Felder dürfen leer sein: Alle drei Beispiele würden als Dublette markiert werden, da das eingestellte Kriterium erfüllt ist, wenn ein Feldinhalt oder alle Feldinhalte leer sind.
- Felder müssen befüllt sein: In diesem Fall würde nur Beispiel A als Dublette markiert werden, da das Kriterium nur dann erfüllt ist, wenn in beiden Feldern ein Inhalt steht.
- Beide Felder müssen leer oder beide müssen befüllt sein: Beispiel A und Beispiel C würden als Dublette markiert werden, da das Kriterium nur dann erfüllt ist, wenn beide Feldinhalte den gleichen Zustand - Feld ist leer oder Feld ist befüllt - besitzen.
Sind die Felder und Feldtypen eingetragen, ist jede Spalte ein Kriterium, das komplett erfüllt werden muss. In der Beispiel-Darstellung gibt es drei zu vergleichende Spalten.
Werden nun zwei Datensätze miteinander verglichen, geht der Data Quality Server wie folgt vor:
Er nimmt den Inhalt beider Datensätze aus dem Feld „Firma“, vergleicht diese und überprüft, ob eine Übereinstimmung von mindestens 90% erfüllt ist.
Werden 90% erfüllt, nimmt der Data Quality Server den Inhalt aus dem Feld „Strasse“ und überprüft, ob mindestens eine Übereinstimmung von 80% erfüllt ist.
Wird bei dem Feld „Strasse“ eine Übereinstimmung von mindestens 80% gefunden, nimmt der Data Quality Server die Inhalte des Feldes „PLZ“ und überprüft diese mit dem eingestellten Prozentwert.
Das macht der Data Quality Server mit allen Feldern aus der Name-Spalte. Wenn alle eingestellten Kriterien zutreffen, werden beide Datensätze einander anhand dieser Matrixspalte zugeordnet.
Wird ein einziger eingestellter Prozentwert nicht erreicht, können die beiden Datensätze dieser Matrixspalte nicht zugeordnet werden.
Der Data Quality Server überprüft nun die zwei Datensätze mit der nächsten Matrixspalte. In dieser Matrixspalte geht er genauso vor wie in der ersten Matrixspalte, jedoch vergleicht er die zwei Datensätze mit den neuen Prozentwerten.
Wenn keine einzige Matrixspalte zutrifft, werden die zwei zu vergleichenden Datensätze einander nicht zugeordnet.
Mit
können Sie Ihre vorgenommenen Matrixeinstellung speichern. Diese ist dann im Menue unter Matritzen zur Be- und Verarbeitung verfügbar.