Für Abgleiche stehen Ihnen verschiedene WorldMatch-Regelsätze zur Verfügung, die Sie aus einer Standardliste auswählen können.

Mit einem Rechtsklick können Sie auch eigene Regelsätze hinzufügen, bzw. veränderte Standardregelsätze unter neuem Namen abspeichern.

Reiter Betonung

Der Bereich Betonung ist zweispaltig aufgebaut, wobei in der Text-Spalte eine Zeichenkette und in der Faktor-Spalte eine Gleitkommazahl zwischen 0 und 10000 steht. Dabei wird der Text mit dem zugeordneten Faktor gewichtet.

Unter Betonung können also Zeichenketten abgewertet werden. Eine Abwertung ist beispielsweise dann sinnvoll, wenn viele allgemeine Begriffe in den Daten stehen.

So hat „Arztpraxis Müller“ zu „Arztpraxis Meyer“ eine Übereinstimmung von 87%. Wird jedoch „Arztpraxis“ ignoriert, besitzen die beiden Datensätze nur noch eine Übereinstimmung von 65%.

Wenn ein Wort in einem Datensatz gefunden wird, wird nicht der ganze Datensatz mit dem Faktor gewichtet, sondern nur die Zeichenkette. Daher ist die endgültige Gewichtung von Wörtern proportional zu ihrer Länge.

Bei der Zuordnung wird die Groß-/Kleinschreibung nicht beachtet, außerdem werden Nichtwortzeichen ignoriert. Die Ausnahme bildet „-“: Hier kann im Datensatz optional eine Wortgrenze vorkommen.

  • Mit dem Button können Sie bereits vorhandene Tabellen importieren.
  • Mit dem Button können Sie eine Einstellung für die Verwendung in anderen Regelsätzen exportieren.

Reiter Assoziationen

Der Bereich Assoziationen ist dreispaltig, wobei die ersten beiden Spalten, Text 1 und Text 2, Zeichenketten enthalten, die dritte Spalte Gewichtung eine Fließkommazahl zwischen 0 und 1 (z.B. „0,8“) enthält.

Die Assoziation dient zur Definition von Ähnlichkeitszuordnungen zwischen Datensatzinhalten. Werden beide Zeichenketten in zwei zu vergleichenden Datensätzen erkannt, wird eine zusätzliche Ähnlichkeit zwischen diesen Bereichen erzeugt.

Eine Assoziation kann zum Vergleich verschiedener Sprachen und als Thesaurus (z. B. „ein Notebook ist ein Laptop“) innerhalb einer Sprache verwendet werden.

Anmerkung: Die Zuordnung findet nicht indirekt statt. Falls beispielsweise eine Assoziation zwischen „Lisa“ und „Elisabeth“, sowie zwischen „Betty“ und „Elisabeth“ definiert ist, dann werden „Lisa“ und „Betty“ nicht zugeordnet.

  • Mit dem Button  können Sie bereits vorhandene Tabellen importieren.
  • Mit dem Button können Sie eine Einstellung für die Verwendung in anderen Regelsätzen exportieren.

Reiter Parameter

Mit den Parametern kann beeinflusst werden, wie Abkürzungen und Hausnummern gewertet werden.

Dazu existieren folgende Einstellungen:

Name

LetterSimilarity

Wertbereich

Gleitkommazahl zwischen 0,0 und 1,0 (Standardwert: 1,0)

Beschreibung

Gibt die Ähnlichkeit zwischen identischen Buchstaben an. Normalerweise sollte dieser Parameter auf 1 gesetzt werden, aber andere Module können die Deaktivierung der Standard-Buchstaben-Identifikation erfordern.

Name

AbbreviationSimilarity

Wertbereich

Gleitkommazahl zwischen 0,0 und 1,0 (Standardwert: 0,0)

Beschreibung

Gibt die Ähnlichkeit zwischen Abkürzungen (z. B. „Inc.“ „Incorporated“) an. Der empfohlene Wert ist 0.8 (besonders in Firmen- und Namensfeldern). Um die Abkürzungsähnlichkeit zu deaktivieren, kann der Parameter auf den Wert 0.0 gesetzt werden.

Im zweiten Bereich sind die Parameter für den Hausnummern-Vergleich. Alle Einstellungen ab hier können erst dann aktiv werden, wenn „HouseNumberSimilarity“ auf „Enabled“ steht.

 Name

HouseNumberSimilarity

Wertebereich

Disabled (Standard), Enabled

Beschreibung

Aktiviert (bzw. deaktiviert) das Hausnummern-Ähnlichkeitsmodul. Ist das Modul aktiviert, hat beispielsweise die Hausnummer 4-8 eine sehr hohe Übereinstimmung mit der Hausnummer 6.
Bemerkung: Wird "HouseNumberSimilarity" aktiviert, wird empfohlen "LetterSimilarity" auf 0 zu setzen.


Name

HouseNumberMax

Wertbereich

Ganzzahl (Standardwert: 1000000)

Beschreibung

Gibt die größte Ganzzahl an, die noch als Hausnummer betrachtet wird.


Name

HouseNumberDifferentExtensionFactor

Wertbereich

Gleitkommazahl zwischen 0,0 und 1,0 (Standardwert: 0,75)

Beschreibung

Gibt den Faktor für unterschiedliche Erweiterungen an (z. B. „5a“ zu „5b“).
Bemerkung: Wird nicht angewendet, falls eine der beiden Zeichenketten einen Hausnummernbereich darstellt.


Name

HouseNumberMissingExtensionFactor

Wertbereich

Gleitkommazahl zwischen 0,0 und 1,0 (Standardwert: 0.9)

Beschreibung

Gibt den Faktor für fehlende Erweiterungen an (z. B. „5a“ zu „5“).
Bemerkung: Wird nicht angewendet, falls eine der beiden Zeichenketten einen Hausnummernbereich darstellt.


Name

HouseNumberSameRangeSimilarity

Wertbereich

Gleitkommazahl zwischen 0,0 und 1,0 (Standardwert: 1,0)

Beschreibung

Gibt die Ähnlichkeit für zwei identische Hausnummernbereiche an.


Name

HouseNumberSubRangeSimilarity

Wertbereich

Gleitkommazahl zwischen 0,0 und 1,0 (Standardwert: 0,95)

Beschreibung

Diese Ähnlichkeit wird zurückgeliefert, wenn beide zu vergleichenden Zeichenketten einen Bereich darstellen, in dem sie sich überschneiden und einschließen (z. B. Hausnummer 2-8 und 4-6).
Bemerkung: Wird mit dem Wert von HouseNumberParityMismatchFactor multipliziert, falls die gegebenen Bereiche nicht beide ungerade bzw. gerade sind.


Name

HouseNumberIntersectingRangeSimilarity

Wertbereich

Gleitkommazahl zwischen 0,0 und 1,0 (Standardwert: 0,7)

Beschreibung

Diese Ähnlichkeit wird zurückgeliefert, wenn beide zu vergleichenden Zeichenketten einen Bereich darstellen, in dem sie sich überschneiden, der sie aber nicht einschließt (z. B. Hausnummer 2-8 und 6-12).
Bemerkung: Wird mit dem Wert von HouseNumberParityMismatchFactor multipliziert, falls die gegebenen Bereiche nicht beide ungerade bzw. gerade sind.


Name

HouseNumberParityMismatchFactor

Wertbereich

Gleitkommazahl zwischen 0,0 und 1,0 (Standardwert: 0,0)

Beschreibung

Gibt den Faktor für die Ähnlichkeit von Hausnummernbereichen an, die nicht beide gerade und nicht beide ungerade sind (so hat z. B. bei der Standardeinstellung die Hausnummer 110 zu 111 eine Ähnlichkeit von 0%).

Jeder Parameter besitzt einen Standardwert. Wenn Sie keine Änderung vornehmen, wird der voreingestellte Standardwert verwendet.

Wollen Sie einen Parameter nicht verwenden, so müssen Sie diesen explizit per Klick in eine Checkbox ausschalten.

  • Mit dem Button  können Sie bereits vorhandene Tabellen importieren.
  • Mit dem Button können Sie eine Einstellung für die Verwendung in anderen Regelsätzen exportieren.

Reiter Vererbung

In der Vererbung können Sie bereits vorhandene Regelsätze vererben. Dabei werden von dem Regelsatz, den Sie vererben, alle Einstellungen übernommen. Diesen Regelsatz können Sie nun in der Vererbung erweitern.

Wird eine Einstellung, die bereits in dem originalen (vererbten) Regelsatz vorhanden ist, in dem neuen Regelsatz verändert angelegt, wird die veränderte Einstellung des neuen Regelsatzes angewendet.

  • Mit dem Button  können Sie bereits vorhandene Tabellen importieren.
  • Mit dem Button  können Sie eine Einstellung für die Verwendung in anderen Regelsätzen exportieren.


Für alle Reiter kann mit dem Button eine vorhandene bzw. vorgenommene Einstellung gelöscht werden.


Reiter Regelsatz prüfen

In diesem Dialog können Sie testen, wie sich ein bestimmter Regelsatz auf die Ähnlichkeit zweier Feldinhalte auswirkt. Geben Sie dazu die beiden zu prüfenden Zeichensatzfolgen in die Felder "Text 1" und "Text 2" ein und klicken auf