Die Matrix ist eine spaltenorientierte, abstrakte Kriteriensammlung, mit deren Hilfe die Entscheidung getroffen wird, ob zwei verglichene Datensätze ähnlich sind oder nicht, und auch festgestellt wird, um welchen Dublettentyp es sich handelt.
Die Definition der Dublettentypen (z. B. sichere Dubletten, gleiche Adresse bei unterschiedlichen Firmennamen oder Umzügler) wird im Data Quality Server voreingestellt.
Dazu werden Ähnlichkeitswerte gegen die Bedingungen der einzelnen Matrixspalten geprüft. Werden alle Bedingungen der aktuellen Spalte erreicht, werden die verglichenen Datensätze einander zugeordnet.
Wird auch nur eine der Bedingungen der aktuellen Spalte nicht erreicht, werden die ermittelten Werte gegen die darauf folgende Matrixspalte geprüft.
Ist keine Spalte mehr vorhanden, gegen die geprüft werden kann, und aus keiner Spalte wurden alle Bedingungen erfüllt, werden die beiden Datensätze einander nicht zugeordnet.
Matrixeinstellungen
Beim Anlegen einer neuen Matrix ist es von Vorteil, wenn die Feldnamen der Matrix die gleiche Bezeichnung bekommen wie die Feldnamen der Datenverbindung (z. B. einer Datenziel-Tabelle), auf welche die Matrix angewandt wird. Sollten Sie dies nicht wünschen, müssen die Felder der Matrix über eine Feldzuordnung den Feldern der Datenverbindung zugewiesen werden. Mehr dazu erfahren Sie im Kapitel „Feldzuordnungen“.
Folgende Einstellungen können getroffen werden:
Einstellungen
- Name: Unter dem von Ihnen gewählten Namen wird die Matrix gespeichert und vom Data Quality Server angesprochen.
- Gemischt (Checkbox)
- Name: Unter dem angegebenen Namen wird die Matrix gespeichert und angesprochen.
- Gemischt: Wird diese Option gesetzt, kann der Data Quality Server mit allen zur Verfügung stehenden Ähnlichkeits-Algorithmen arbeiten (je Feld aber nur einer). Der gewünschte Algorithmus kann in der Typ-Spalte je Feld unterschiedlich eingestellt werden.
- International (Checkbox): Wird diese Option gesetzt, haben Sie bei der Auswahl des Typs alle Regelsätze, die bei den WorldMatch Regelsätzen eingestellt wurden. Beachten Sie dabei: Wird diese Option gesetzt, arbeitet der Data Quality Server mit WorldMatch und nicht mehr mit FACT (mächtiger und flexibler, aber langsamer).
FACT (Checkbox): Wird die Option gesetzt, arbeitet der Data Quality
Server nurServer nur mit den FACT- Algorithmen (besonders schnell).
Entscheidungsmatrix
- Zeile Zeile hinzufügen: Fügt eine Zeile an unterster Stelle in der Matrix hinzu.
- Zeile Zeile entfernen: Löscht die aktuell ausgewählte Zeile.
- Spalte Spalte hinzufügen: Öffnet ein Fenster, in dem Sie einen Spaltennamen eingeben können. Mit einem Klick auf OK wird eine Spalte eingefügt, in der Sie nun einen neuen Dublettentyp definieren können.
- Spalte Spalte entfernen: Löscht die aktuell ausgewählte Spalte.
- Feste Spaltenbreite (Checkbox): Stellen Sie hier bei Bedarf eine einheitliche Breite für die Ansicht der Matrix-Spalten ein.
- Spaltennummern anzeigen (Checkbox): Anstatt der Spaltennamen wird bei Auswahl dieser Option die Ordnungsnummer angezeigt.
- ImportImport: Eine Fuktion zum importieren anderer bereits angelegter Matrizen im OAC-Matrix-Format.
- Export Export: Hiermit können Matrizen im CSV-Format ausgespielt werden.
Matrixaufbau
Die Matrix selbst besteht aus den Feldnamen, aus den zugeordneten Typen sowie aus den Spalten mit den prozentualen Gewichtungen der Werte. Die
Eine Tabelle der Entscheidungsmatrix besteht aus den folgenden Spalten:
- Name: Mit den Feldnamen wählen Sie aus, welche Felder aus Ihrer Datenverbindung verglichen werden. Bitte achten Sie darauf, dass die
Info |
---|
Beim Anlegen einer neuen Matrix sollten Sie darauf achten den Feldnamen der Matrix |
...
die gleiche Bezeichnung wie den Feldnamen |
...
der Datenverbindung (z. B. einer Datenziel-Tabelle) |
...
zuzuordnen, auf welche die Matrix angewandt wird. Sollten Sie dies nicht wünschen, müssen die Felder der Matrix über eine Feldzuordnung den Feldern der Datenverbindung zugewiesen werden. Mehr dazu erfahren Sie im Kapitel Feldzuordnungen. |
- Typ: Ist die Option auf FACT gesetzt, ist Ihre Auswahl auf „Normal“, „Hausnummer“ und „Attribute“ begrenzt.
Ist die Einstellungsoption International aktiviert, stehen Ihnen alle Regeln zur Verfügung, die als WorldMatch-Regelsätze angelegt sind. - Ist die Einstellungsoption Gemischt aktiviert, stehen Ihnen alle Regeln zur Verfügung, die als WorldMatch-Regelsätze angelegt sind. Außerdem stehen erweiterte FACT-Regelsätze und die benutzerdefinierte Feldtypen zur Verfügung.
- Werte: Wenn zwei Feldinhalte miteinander verglichen werden, errechnen FACT oder WorldMatch einen Ähnlichkeitswert und geben ein Ergebnis zwischen 0 und 100 Prozent aus. Mit diesen Werten wird eingestellt, welche prozentuale Übereinstimmung zwischen den Feldinhalten erreicht werden muss, damit diese als Dublette markiert werden.
...