Die Intradublettensuchen ermöglichen Dublettensuchen innerhalb ganzer Tabellen oder auch mehrerer Tabellen gegeneinander.
Mit einem Rechtsklick auf Intradublettensuchen können Sie eine neue Suche anlegen.
Im Anlagedialog können Sie folgende Einstellungen vornehmen:
- Name: Geben Sie einen eindeutigen Namen an. Mit diesem wird Ihre Einstellung abgespeichert und später vom Data Quality Server aus angesprochen.
- Maximale Prozessoranzahl: Geben Sie hier die maximale Anzahl der Kerne an, mit der die Dublettensuche laufen darf. Dies hat Performanz-Gründe.
Reiter Quelltabellen
- Hier werden Ihnen bereits angelegte Datenquellen und Datenziele zur Auswahl angezeigt. Per Drag & Drop oder Doppelklick lassen sich diese in den Abgleichbereich „Ausgewählte Datenquellen“ überführen.
Mit dem Button lassen sich Datenquellen auch direkt aus diesem Dialog anlegen. (siehe Datenquellen anlegen) - Sie haben weiterhin die Möglichkeit mit bereits erstellten Filtern die Datenfelder zur Verarbeitung zu begrenzen.
- Mit der Checkbox Intra-Quellen_Duplikate? legen Sie fest, ob die Datei für den Dublettenabgleich innerhalb der Quelle herangezogen werden soll.
Reiter Datenstruktur
- Workflow auswählen: Sie erhalten hier eine Auswahlliste von bereits angelegten Workflows. Dadurch besteht die Möglichkeit im Vorfeld definierte Workflows zu nutzen, um die Daten vor der Dublettensuche aufzubereiten (z. B. Straße und Hausnummer trennen).
- Feldzuordnungen: Um die Tabellenfelder sowohl einander wie auch den Feldern der Suchmatrix zuzuordnen, können diese per Drag & Drop oder Doppelklick in die betrefende Spalte des Zuordnungsgrid übernommen werden.
Anmekung: Achten Sie darauf, dass einander zugeordnete Felder immer denselben Datentyp haben.
- Spalte Datentyp: Hier können Sie den gewünschten Datentyp aus einem Dropdown auswählen.
- Spalte MulitValue (Checkbox): Sie können auswählen, ob es sich um ein Feld mit mehreren gültigen Werten handelt.
- Feldgröße: Hier läßt sich die Zeichenanzahl für ein Feld begrenzen (max. 255 Zeichen)
- Matrix Feldname: hier werden die zugeordneten Felder aus der gewählten Matrix angezeigt.
- Matritzenauswahl: Sie erhalten hier eine Auswahlliste von vorhandenen Matrizen, die auf die Suche angewendet werden können.
- Matrixfelder: Um die vorhandenen Matrix-Tabellenfelder den Matrix Feldnamen zuzuordnen, können diese per Drag & Drop übernommen werden.
Button
: Alle Felder der gewählten Tabelle werden automatisiert übernommen.- Button : Alle Felder der gewählten Matrix werden automatisiert übernommen.
- Button : Die vorgenommenen Feldmappings werden gelöscht.
Anmerkung: Die automatische Zuordnung funktioniert nicht bei unähnlichen Namen. Hier müssen die Felder manuell (per Drag & Drop) zugeordnet werden.
Reiter Suchumgebungen
Mehr Informationen hierzu finden Sie auch im Kapitel Suchumgebung.
- Suchtiefe: Anzahl der Datensätze, die mit dem aktiven Datensatz verglichen werden.
- Ermittle optimale Suchtiefe (Checkbox): Ist diese Option ausgewählt, versucht die Software anhand von Stichproben, die sinnvollste Größe der Suchtiefe zu ermitteln. Die Suchtiefe kann aber dadurch nie größer als der voreingestellte Wert werden.
- Regelsatz: Damit kann die Sortierung anhand von Worldmatch-Regelsätzen beeinflusst werden. Dies ist nur für Dublettensuchen mit Worldmatch-Technologie sinnvoll – nicht mit FACT.
- IndexFeld#1: Hier wird ein Feld zugeordnet, für das die Suchtiefe gelten soll.
- Weitere Spalten: Hier wird die Reihenfolge der Sortierung in der Suchumgebung definiert.
- Weitere Zeilen: Je Zeile wird eine weitere Suchumgebung definiert.
- Reiter Kopfdubletten
Eine Adresse kann mehrmals innerhalb eines Datenbestandes vorkommen. Werden zwei oder mehr gleiche Adressen (Duplikate) gefunden, werden damit Dublettengruppen gebildet.
Nach dem Adressenabgleich in der Dublettengruppe wird nur eine der Adressen als Kopfdublette, alle anderen als Folgedubletten bewertet. Der bereinigte Datenbestand soll schließlich nur Kopfdubletten enthalten, alle Folgendubletten sollen gelöscht werden.
Um die Entscheidung zu treffen, welche Adresse als Kopfdublette angesehen wird, verfügt der Data Quality Server über unterschiedliche Methoden.
- Methode Automatisch: Per Standard wird die Omikron-Automatik verwendet, welche die Kopfdublette nach der Menge an vorhandenem Inhalt (es werden Punkte für die Menge an befüllten Feldern, die Anzahl der Strings und Zeichen vergeben) in den Feldern des Datensatzes auswählt.
Die Punktwerte können beliebig angepasst werden.
Mit dem Button
können Sie nun weitere Prioritätsregeln für Kopfdubletten erstellen. Die neue Regel erscheint automatisch an Platz eins der Liste der Regeln, die Regeln werden nach Reihenfolge bearbeitet.Jede weitere neu erstellte Regel wird immer an Platz eins erscheinen.
Sie haben die Möglichkeit unter drei verschiedenen Priorisierungsregeln zu wählen
- Prioritätsfeld: Hier wählen Sie ein Feld der Datenstruktur aus, dessen Einträge priorisiert werden. Es wird dann jeweils derjenige Datensatz zur Kopfdublette, bei dem der Inhalt des priorisierten Feldes der Prioritätsmethode entspricht.
z.B. Feld "PLZ" Methode „Nummerisch aufsteigend“.
Als Methoden stehen folgende Sortierungskriterien zur Verfügung:
Anmerkung: "Text aufsteigend" bzw. "Text absteigend" entspricht einer alphabetischen Sortierung.
- Feldprioritäten: Wählen Sie ein oder mehrere Felder der Datenstruktur aus, die Einträge enthalten sollen. Es wird dann jeweils derjenige Datensatz zur Kopfdublette, bei dem die benannten Felder Inhalte haben, wenn dies in dem anderen Datensatz nicht der Fall ist.
Wählen Sie hierzu ein Feld aus dem Dropdown aus und Klicken auf
. Mit können Sie einen Feldeintrag wieder löschen.
- Quellprioritäten: Wählen Sie hiermit, die Felder welcher Datenquelle immer als Kopfdublette gelten sollen. Es wird dann jeweils derjenige Datensatz zur Kopfdublette, der aus der Priorisierten Datenquelle stammt.
- Sie können eine Priorität
- per numerischer Sortierung je Datenquelle eingeben
- per Checkbox Nur Kopfdubellte? bestimmen, welche Datenquelle herangezogen werden soll
- Sie können eine Priorität
Mit
können Sie eine ganze Regel wieder löschen.Diese Methoden können auch kombiniert werden, wobei von oben nach unten überprüft wird, ob die Methode im speziellen Fall eine Entscheidung bringt. Wenn dies nicht der Fall ist, wird die darunterstehende überprüft.
Reiter Ergebnisse
Hier definieren Sie den Export Ihrer Ergebnisse. Ausgangsbasis ist dabei die Datenstruktur, welche im Reiter Datastructure definiert wurde. Außerdem werden noch die Statusfelder ergänzt, welche durch die Dublettenprüfung neu entstehen.
- DQS_HitColumn: Dieses Feld enthält die Position der Matrixspalte, welche die Dublette gefunden hat (1 für die erste Spalte, 2 für die zweite usw. – die Kopfdublette hat den Wert Head).
- DQS_DestId: Dieses Feld enthält die ID des Datensatzes, der direkte Kopfdublette ist – aufgrund der Baumstruktur der Dublettenabhängigkeiten ist das nicht zwangsläufig die Kopfdublette der zugehörigen Dublettengruppe, sondern evtl. eine der anderen Folgedubletten.
- DQS_FlatDestId: Dieses Feld enthält die ID der zugehörigen Dublettengruppe – gleichzeitig die ID der Kopfdublette.
- DQS_AvgSimi: Dieses Feld enthält einen durchschnittlichen Ähnlichkeitswert zwischen Folgedublette und direkter Kopfdublette.
Außerdem erzeugt die Software noch zwei weitere Felder:
- DQS_Id: Die Software erzeugt eine eigene ID, welche per Standard als Schlüsselfeld gewählt wird. Der Schlüssel kann nach Wunsch jedoch einem anderen Feld zugewiesen werden.
- DQS_Source: Hier wird der Name der Datenverbindung ausgegeben, aus welcher der jeweilige Datensatz stammt. Dadurch können Sie im Export erkennen, aus welcher Tabelle der Datensatz stammt.
Über die Checkboxen in der Spalte Exportieren, können Sie definieren, welche Felder exportiert werden sollen. Exportiert werden nur angehakte Felder.
Außerdem können Sie in der Spalte Export Feldname die Feldnamen für den Export anpassen.
Der zweite Bereich erlaubt Ihnen, die Ergebnismenge zu definieren.
- Exportieren als Dublettenfreie Liste: Es werden alle Datensätze ohne Folgedubletten exportiert. Es muss ein zuvor eingestelltes Datenziel als Speicherort für das Ergebnis ausgewählt werden.
- Exportieren als Dublettenliste: Es werden nur Kopf- und Folgedubletten exportiert. Es muss ein zuvor eingestelltes Datenziel als Speicherort für das Ergebnis ausgewählt werden.
- Exportieren als Komplettliste: Es werden Kopfdubletten, Folgedubletten und alle anderen Datensätze exportiert. Es muss ein zuvor eingestelltes Datenziel als Speicherort für das Ergebnis ausgewählt werden.
Die Export-Listen können alle in dasselbe Datenziel geschrieben werden, müssen aber nicht. Mit dem Button
(rechts neben Datenziel) können Datenziele direkt aus diesem Dialog angelegt werden.Weiterhin können die Export-Listen durch Workflows weiterverarbeitet werden (z. B. falls Sie eine Liste in verschiedene Datenbanken schreiben möchten). Mit dem Button
(rechts neben Workflow) können Workflows direkt aus diesem Dialog angelegt werden.Sollten Sie die Ergebnisse in ein Datenziel schreiben wollen, das eine andere Struktur aufweist, so müssen Sie dessen Struktur mit der Export-Struktur ersetzen. Achtung: Dadurch wird das Datenziel überschrieben.
- Exportieren als PDF Report: Es wird ein Report mit Statistiken der Analyse im PDF-Format exportiert. ACHTUNG: Achten Sie darauf, dass der DQ Server Schreibrechte im angegebenen Pfad besitzt.