Versions Compared

Key

  • This line was added.
  • This line was removed.
  • Formatting was changed.

...

Wird auch nur eine der Bedingungen der aktuellen Spalte nicht erreicht, werden die ermittelten Werte gegen die darauf folgende darauffolgende Matrixspalte geprüft.

Ist keine Spalte mehr vorhanden, gegen die geprüft werden kann, und aus keiner Spalte wurden alle Bedingungen erfüllt, werden die beiden Datensätze einander nicht zugeordnet.

...

  • Name: Unter dem von Ihnen gewählten Namen wird die Matrix gespeichert und vom Data Quality Server angesprochen.
  • Gemischt (Checkbox): Wird diese Option gesetzt, kann der Data Quality Server mit allen zur Verfügung stehenden Ähnlichkeits-Algorithmen arbeiten (je Feld aber nur einer). Der gewünschte Algorithmus kann in der Typ-Spalte je Feld unterschiedlich eingestellt werden.
  • International (Checkbox): Wird diese Option gesetzt, haben Sie bei der Auswahl des Typs alle Regelsätze, die bei den WorldMatch Regelsätzen eingestellt wurden. Beachten Sie dabei: Wird diese Option gesetzt, arbeitet der Data Quality Server mit WorldMatch und nicht mehr mit FACT (mächtiger und flexibler, aber langsamer.
  • FACT (Checkbox): Wird die Option gesetzt, arbeitet der Data Quality Server nur mit den FACT-Algorithmen (besonders schnell).


Entscheidungsmatrix

...

  • Zeile hinzufügen: Fügt eine Zeile an unterster Stelle in der Matrix hinzu.
  • Zeile entfernen: Löscht die aktuell ausgewählte Zeile.
  • Spalte hinzufügen: Öffnet ein Fenster, in dem Sie einen Spaltennamen eingeben können. Mit einem Klick auf OK wird eine Spalte eingefügt, in der Sie nun einen neuen Dublettentyp definieren können.
  • Spalte entfernen: Löscht die aktuell ausgewählte Spalte.
  • Feste Spaltenbreite (Checkbox): Stellen Sie hier bei Bedarf eine einheitliche Breite für die Ansicht der Matrix-Spalten ein.
  • Spaltennummern anzeigen (Checkbox): Anstatt der Spaltennamen wird bei Auswahl dieser Option die Ordnungsnummer angezeigt.
  • Import: Eine Fuktion Funktion zum importieren Importieren bereits angelegter Matrizen im OAC-Matrix-Format.
  • Export: Hiermit können Matrizen im CSV-Format ausgespielt werden.

...

Info

Beim Anlegen einer neuen Matrix sollten Sie darauf achten den Feldnamen der Matrix die gleiche Bezeichnung wie den Feldnamen der Datenverbindung (z. B. einer Datenziel-Tabelle) zuzuordnen, auf welche die Matrix angewandt wird.

Sollten Sie dies nicht wünschen, müssen die Felder der Matrix über eine Feldzuordnung den Feldern der Datenverbindung zugewiesen werden. Mehr dazu erfahren Sie im Kapitel Feldzuordnungen.


  • Typ: Ist die Option auf FACT gesetzt, ist Ihre Auswahl auf „Normal“, „Hausnummer“ und „Attribute“ begrenztHier wählen Sie aus einem Dropdown den gewünschten WorldMatch-Regelsatz je Zeile aus.
    • Ist die Einstellungsoption
    International
    • Gemischt aktiviert, stehen Ihnen alle Regeln zur Verfügung, die als WorldMatch-Regelsätze angelegt sind. Außerdem stehen erweiterte FACT-Regelsätze und die benutzerdefinierten Feldtypen zur Verfügung.
      • Image Added
    • Ist die Einstellungsoption
    Gemischt
    • International aktiviert, stehen Ihnen alle Regeln zur Verfügung, die als WorldMatch-Regelsätze angelegt sind.
    Außerdem stehen erweiterte FACT-Regelsätze und die benutzerdefinierte Feldtypen zur Verfügung
    • Ist die Option auf FACT gesetzt, ist Ihre Auswahl auf „Normal“, „Hausnummer“ und „Attribute“ begrenzt.
  • Werte: Die Bezeichnung für eine Wertespalte können Sie nach dem Hinzufügen einer Spalte frei vergeben. Wenn zwei Feldinhalte miteinander verglichen werden, errechnen FACT oder WorldMatch einen Ähnlichkeitswert und geben ein Ergebnis zwischen 0 und 100 Prozent aus. Mit diesen Werten wird eingestellt, welche prozentuale Übereinstimmung zwischen den Feldinhalten erreicht werden muss, damit diese als Dublette markiert werden.

         Zusätzlich gibt es noch ein Entscheidungskriterium, wie mit leeren Feldinhalten umgegangen werden soll. Dazu drei Beispiele:

  • Beispiel A:
    Companyfeld Tabelle 1 = Omikron Data Quality GmbH
    Companyfeld Tabelle 2 = Omikron Data Quality GmbH
  • Beispiel B:
    Companyfeld Tabelle 1 = Omikron Data Quality GmbH
    Companyfeld Tabelle 2 = [kein Feldinhalt]
  • Beispiel C:
    Companyfeld Tabelle 1 = [kein Feldinhalt]
    Companyfeld Tabelle 2 = [kein Feldinhalt] 

         Die Entscheidungskriterien können in einem Feld per Rechtsklick aufgerufen werden sind wie folgt definiert:

         Image Added

  • Felder dürfen leer sein: Dieses Kriterium wird benutztist eingestellt, wenn der eingestellte Wert normal in normaler Schriftart dargestellt wird (z. B. „80“).
  • Felder müssen befüllt sein: Dieses Kriterium wird benutztist eingestellt, wenn der Wert fett in fetter Schriftart dargestellt wird (z. B. „80“).
  • Beide Felder müssen leer oder beide müssen befüllt sein: Dieses Kriterium wird benutztist eingestellt, wenn der Wert kursiv in kursiver Schriftart dargestellt wird (z. B. „80“).

...

Sind die Felder und Feldtypen eingetragen, ist jede Spalte ein Kriterium, das komplett erfüllt werden muss. In der Beispiel-Darstellung gibt es drei zu vergleichende Spalten.

Image RemovedImage Added

Werden nun zwei Datensätze miteinander verglichen, geht der Data Quality Server wie folgt vor:

Er nimmt den Inhalt beider Datensätze aus dem Feld „company“Firma, vergleicht diese und überprüft, ob eine Übereinstimmung von mindestens 90% erfüllt ist.

Werden 90% erfüllt, nimmt der Data Quality Server den Inhalt aus dem Feld „street“ Strasseund überprüft, ob mindestens eine Übereinstimmung von 80% erfüllt ist.

Wird bei dem Feld „street“ „Strasse“ eine Übereinstimmung von mindestens 80% gefunden, nimmt der Data Quality Server die Inhalte des Feldes „house number“ „PLZ“ und überprüft diese mit dem eingestellten Prozentwert.

...

Wird ein einziger eingestellter Prozentwert nicht erreicht, können die beiden Datensätze dieser Matrixspalte nicht zugeordnet werden.

Der Data Quality Server überprüft nun die zwei Datensätze mit der nächsten Matrixspalte.  In dieser Matrixspalte geht er genauso vor wie in der ersten Matrixspalte, jedoch vergleicht er die zwei Datensätze mit den neuen Prozentwerten.

Wenn keine einzige Matrixspalte zutrifft, werden die zwei zu vergleichenden Datensätze einander nicht zugeordnet.


Mit Image Added können Sie Ihre vorgenommenen Matrixeinstellung speichern. Diese ist dann im Menue unter Matritzen zur Be- und Verarbeitung verfügbar.

Image Added