Versions Compared

Key

  • This line was added.
  • This line was removed.
  • Formatting was changed.

Die Matrix ist eine spaltenorientierte, abstrakte Kriteriensammlung, mit deren Hilfe die Entscheidung getroffen wird, ob zwei verglichene Datensätze ähnlich sind oder nicht, und auch festgestellt wird, um welchen Dublettentyp es sich handelt.

Die Definition der Dublettentypen (z. B. sichere Dubletten, gleiche Adresse bei unterschiedlichen Firmennamen oder Umzügler) wird im Data Quality Server voreingestellt.

Dazu werden Ähnlichkeitswerte gegen die Bedingungen der einzelnen Matrixspalten geprüft. Werden alle Bedingungen der aktuellen Spalte erreicht, werden die verglichenen Datensätze einander zugeordnet.

Wird auch nur eine der Bedingungen der aktuellen Spalte nicht erreicht, werden die ermittelten Werte gegen die darauf folgende Matrixspalte geprüft.

Ist keine Spalte mehr vorhanden, gegen die geprüft werden kann, und aus keiner Spalte wurden alle Bedingungen erfüllt, werden die beiden Datensätze einander nicht zugeordnet.

Matrixeinstellungen

Image Removed

Beim Anlegen einer neuen Matrix ist es von Vorteil, wenn die Feldnamen der Matrix die gleiche Bezeichnung bekommen wie die Feldnamen der Datenverbindung (z. B. einer Datenziel-Tabelle), auf welche die Matrix angewandt wird. Sollten Sie dies nicht wünschen, müssen die Felder der Matrix über eine Feldzuordnung den Feldern der Datenverbindung zugewiesen werden. Mehr dazu erfahren Sie im Kapitel „Feldzuordnungen“.

Folgende Einstellungen können getroffen werden:

Image Added


Einstellungen

  • Name: Unter dem von Ihnen gewählten Namen wird die Matrix gespeichert und vom Data Quality Server angesprochen.
  • Gemischt (Checkbox)
  • Name: Unter dem angegebenen Namen wird die Matrix gespeichert und angesprochen.
  • Gemischt: Wird diese Option gesetzt, kann der Data Quality Server mit allen zur Verfügung stehenden Ähnlichkeits-Algorithmen arbeiten (je Feld aber nur einer). Der gewünschte Algorithmus kann in der Typ-Spalte je Feld unterschiedlich eingestellt werden.
  • International (Checkbox): Wird diese Option gesetzt, haben Sie bei der Auswahl des Typs alle Regelsätze, die bei den WorldMatch Regelsätzen eingestellt wurden. Beachten Sie dabei: Wird diese Option gesetzt, arbeitet der Data Quality Server mit WorldMatch und nicht mehr mit FACT (mächtiger und flexibler, aber langsamer).
  • FACT (Checkbox): Wird die Option gesetzt, arbeitet der Data Quality

    Server nur

    Server nur mit den FACT- Algorithmen (besonders schnell).


Entscheidungsmatrix

Image Added

  • Image Added Zeile Image Removed Zeile hinzufügen: Fügt eine Zeile an unterster Stelle in der Matrix hinzu.
  • Image Removed Zeile Image Added Zeile entfernen: Löscht die aktuell ausgewählte Zeile.
  • Image Removed Spalte Image Added Spalte hinzufügen: Öffnet ein Fenster, in dem Sie einen Spaltennamen eingeben können. Mit einem Klick auf OK wird eine Spalte eingefügt, in der Sie nun einen neuen Dublettentyp definieren können.
  • Image Removed Spalte Image Added Spalte entfernen: Löscht die aktuell ausgewählte Spalte.
  • Feste Spaltenbreite (Checkbox): Stellen Sie hier bei Bedarf eine einheitliche Breite für die Ansicht der Matrix-Spalten ein.
  • Spaltennummern anzeigen (Checkbox): Anstatt der Spaltennamen wird bei Auswahl dieser Option die Ordnungsnummer angezeigt.
  • Image Removed ImportImage AddedImport: Eine Fuktion zum importieren anderer bereits angelegter Matrizen im OAC-Matrix-Format.
    • Image Added
  • Image AddedExportImage Removed Export: Hiermit können Matrizen im CSV-Format ausgespielt werden.
    • Image Added

Matrixaufbau

Image Added

Die Matrix selbst besteht aus den Feldnamen, aus den zugeordneten Typen sowie aus den Spalten mit den prozentualen Gewichtungen der Werte. Die

Eine Tabelle der Entscheidungsmatrix besteht aus den folgenden Spalten:

  • Name: Mit den Feldnamen wählen Sie aus, welche Felder aus Ihrer Datenverbindung verglichen werden. Bitte achten Sie darauf, dass die
Info

Beim Anlegen einer neuen Matrix sollten Sie darauf achten den Feldnamen der Matrix

...

die gleiche Bezeichnung wie den Feldnamen

...

der Datenverbindung (z. B. einer Datenziel-Tabelle)

...

zuzuordnen, auf welche die Matrix angewandt wird.

Sollten Sie dies nicht wünschen, müssen die Felder der Matrix über eine Feldzuordnung den Feldern der Datenverbindung zugewiesen werden. Mehr dazu erfahren Sie im Kapitel Feldzuordnungen.

  • Typ: Ist die Option auf FACT gesetzt, ist Ihre Auswahl auf „Normal“, „Hausnummer“ und „Attribute“ begrenzt.
    Ist die Einstellungsoption International aktiviert, stehen Ihnen alle Regeln zur Verfügung, die als WorldMatch-Regelsätze angelegt sind.
  • Ist die Einstellungsoption Gemischt aktiviert, stehen Ihnen alle Regeln zur Verfügung, die als WorldMatch-Regelsätze angelegt sind. Außerdem stehen erweiterte FACT-Regelsätze und die benutzerdefinierte Feldtypen zur Verfügung.
  • Werte: Wenn zwei Feldinhalte miteinander verglichen werden, errechnen FACT oder WorldMatch einen Ähnlichkeitswert und geben ein Ergebnis zwischen 0 und 100 Prozent aus. Mit diesen Werten wird eingestellt, welche prozentuale Übereinstimmung zwischen den Feldinhalten erreicht werden muss, damit diese als Dublette markiert werden.

...