Für Abgleiche stehen Ihnen verschiedene WorldMatch-Regelsätze zur Verfügung, die Sie aus einer Standardliste auswählen können.
Mit einem Rechtsklick können Sie auch eigene Regelsätze hinzufügen, bzw. veränderte Standardregelsätze unter neuem Namen abspeichern.
Reiter Betonung
Der Bereich Betonung ist zweispaltig aufgebaut, wobei in der Text-Spalte eine Zeichenkette und in der Faktor-Spalte eine Gleitkommazahl zwischen 0 und 10000 steht. Dabei wird der Text mit dem zugeordneten Faktor gewichtet.
Unter Betonung können also Zeichenketten abgewertet werden. Eine Abwertung ist beispielsweise dann sinnvoll, wenn viele allgemeine Begriffe in den Daten stehen.
So hat „Arztpraxis Müller“ zu „Arztpraxis Meyer“ eine Übereinstimmung von 87%. Wird jedoch „Arztpraxis“ ignoriert, besitzen die beiden Datensätze nur noch eine Übereinstimmung von 65%.
Wenn ein Wort in einem Datensatz gefunden wird, wird nicht der ganze Datensatz mit dem Faktor gewichtet, sondern nur die Zeichenkette. Daher ist die endgültige Gewichtung von Wörtern proportional zu ihrer Länge.
Bei der Zuordnung wird die Groß-/Kleinschreibung nicht beachtet, außerdem werden Nichtwortzeichen ignoriert. Die Ausnahme bildet „-“: Hier kann im Datensatz optional eine Wortgrenze vorkommen.
- Mit dem Button können Sie bereits vorhandene Tabellen importieren.
- Mit dem Button können Sie eine Einstellung für die Verwendung in anderen Regelsätzen exportieren.
Reiter Assoziationen
Der Bereich Assoziationen ist dreispaltig, wobei die ersten beiden Spalten, Text 1 und Text 2, Zeichenketten enthalten, die dritte Spalte Gewichtung eine Fließkommazahl zwischen 0 und 1 (z.B. „0,8“) enthält.
Die Assoziation dient zur Definition von Ähnlichkeitszuordnungen zwischen Datensatzinhalten. Werden beide Zeichenketten in zwei zu vergleichenden Datensätzen erkannt, wird eine zusätzliche Ähnlichkeit zwischen diesen Bereichen erzeugt.
Eine Assoziation kann zum Vergleich verschiedener Sprachen und als Thesaurus (z. B. „ein Notebook ist ein Laptop“) innerhalb einer Sprache verwendet werden.
Anmerkung: Die Zuordnung findet nicht indirekt statt. Falls beispielsweise eine Assoziation zwischen „Lisa“ und „Elisabeth“, sowie zwischen „Betty“ und „Elisabeth“ definiert ist, dann werden „Lisa“ und „Betty“ nicht zugeordnet.
- Mit dem Button können Sie bereits vorhandene Tabellen importieren.
- Mit dem Button können Sie eine Einstellung für die Verwendung in anderen Regelsätzen exportieren.
Reiter Parameter
Mit den Parametern kann beeinflusst werden, wie Abkürzungen und Hausnummern gewertet werden.
Dazu existieren folgende Einstellungen:
Name | LetterSimilarity |
Wertbereich | Gleitkommazahl zwischen 0,0 und 1,0 (Standardwert: 1,0) |
Beschreibung | Gibt die Ähnlichkeit zwischen identischen Buchstaben an. Normalerweise sollte dieser Parameter auf 1 gesetzt werden, aber andere Module können die Deaktivierung der Standard-Buchstaben-Identifikation erfordern. |
Name | AbbreviationSimilarity |
Wertbereich | Gleitkommazahl zwischen 0,0 und 1,0 (Standardwert: 0,0) |
Beschreibung | Gibt die Ähnlichkeit zwischen Abkürzungen (z. B. „Inc.“ „Incorporated“) an. Der empfohlene Wert ist 0.8 (besonders in Firmen- und Namensfeldern). Um die Abkürzungsähnlichkeit zu deaktivieren, kann der Parameter auf den Wert 0.0 gesetzt werden. |
Im zweiten Bereich sind die Parameter für den Hausnummern-Vergleich. Alle Einstellungen ab hier können erst dann aktiv werden, wenn „HouseNumberSimilarity“ auf „Enabled“ steht.
Name | HouseNumberSimilarity |
Wertebereich | Disabled (Standard), Enabled |
Beschreibung | Aktiviert (bzw. deaktiviert) das Hausnummern-Ähnlichkeitsmodul. Ist das Modul aktiviert, hat beispielsweise die Hausnummer 4-8 eine sehr hohe Übereinstimmung mit der Hausnummer 6. |
Name | HouseNumberMax |
Wertbereich | Ganzzahl (Standardwert: 1000000) |
Beschreibung | Gibt die größte Ganzzahl an, die noch als Hausnummer betrachtet wird. |
Name | HouseNumberDifferentExtensionFactor |
Wertbereich | Gleitkommazahl zwischen 0,0 und 1,0 (Standardwert: 0,75) |
Beschreibung | Gibt den Faktor für unterschiedliche Erweiterungen an (z. B. „5a“ zu „5b“). |
Name | HouseNumberMissingExtensionFactor |
Wertbereich | Gleitkommazahl zwischen 0,0 und 1,0 (Standardwert: 0.9) |
Beschreibung | Gibt den Faktor für fehlende Erweiterungen an (z. B. „5a“ zu „5“). |
Name | HouseNumberSameRangeSimilarity |
Wertbereich | Gleitkommazahl zwischen 0,0 und 1,0 (Standardwert: 1,0) |
Beschreibung | Gibt die Ähnlichkeit für zwei identische Hausnummernbereiche an. |
Name | HouseNumberSubRangeSimilarity |
Wertbereich | Gleitkommazahl zwischen 0,0 und 1,0 (Standardwert: 0,95) |
Beschreibung | Diese Ähnlichkeit wird zurückgeliefert, wenn beide zu vergleichenden Zeichenketten einen Bereich darstellen, in dem sie sich überschneiden und einschließen (z. B. Hausnummer 2-8 und 4-6). |
Name | HouseNumberIntersectingRangeSimilarity |
Wertbereich | Gleitkommazahl zwischen 0,0 und 1,0 (Standardwert: 0,7) |
Beschreibung | Diese Ähnlichkeit wird zurückgeliefert, wenn beide zu vergleichenden Zeichenketten einen Bereich darstellen, in dem sie sich überschneiden, der sie aber nicht einschließt (z. B. Hausnummer 2-8 und 6-12). |
Name | HouseNumberParityMismatchFactor |
Wertbereich | Gleitkommazahl zwischen 0,0 und 1,0 (Standardwert: 0,0) |
Beschreibung | Gibt den Faktor für die Ähnlichkeit von Hausnummernbereichen an, die nicht beide gerade und nicht beide ungerade sind (so hat z. B. bei der Standardeinstellung die Hausnummer 110 zu 111 eine Ähnlichkeit von 0%). |
Jeder Parameter besitzt einen Standardwert. Wenn Sie keine Änderung vornehmen, wird der voreingestellte Standardwert verwendet.
Wollen Sie einen Parameter nicht verwenden, so müssen Sie diesen explizit per Klick in eine Checkbox ausschalten.
- Mit dem Button können Sie bereits vorhandene Tabellen importieren.
- Mit dem Button können Sie eine Einstellung für die Verwendung in anderen Regelsätzen exportieren.
Reiter Vererbung
In der Vererbung können Sie bereits vorhandene Regelsätze vererben. Dabei werden von dem Regelsatz, den Sie vererben, alle Einstellungen übernommen. Diesen Regelsatz können Sie nun in der Vererbung erweitern.
Wird eine Einstellung, die bereits in dem originalen (vererbten) Regelsatz vorhanden ist, in dem neuen Regelsatz verändert angelegt, wird die veränderte Einstellung des neuen Regelsatzes angewendet.
- Mit dem Button können Sie bereits vorhandene Tabellen importieren.
- Mit dem Button können Sie eine Einstellung für die Verwendung in anderen Regelsätzen exportieren.
Für alle Reiter kann mit dem Button
eine vorhandene bzw. vorgenommene Einstellung gelöscht werden.Reiter Regelsatz prüfen
In diesem Dialog können Sie testen, wie sich ein bestimmter Regelsatz auf die Ähnlichkeit zweier Feldinhalte auswirkt. Geben Sie dazu die beiden zu prüfenden Zeichensatzfolgen in die Felder "Text 1" und "Text 2" ein und klicken auf