Die Suchumgebung ist notwendig, da FACT® und WorldMatch® unscharfe und nicht indizierbare Suchverfahren sind. Um alle Dublettentypen zu finden, müsste jede Adresse mit jeder anderen Adresse verglichen werden. Dies wäre jedoch bei einer größeren Anzahl an Datensätzen selbst von heutigen High-End-Serversystemen nicht mit akzeptablem Zeitaufwand zu bewältigen. Es ist jedoch so, dass nahezu alle Dublettentypen über ein bestimmtes Suchverfahren gefunden werden können, das eine deutliche Reduzierung der Anzahl der Vergleiche erlaubt.
Prinzipiell ist die Suchumgebung dem menschlichen Suchverhalten nachgebildet. Nehmen wir für ein Beispiel die Telefonbücher Deutschlands. Suchen Sie nun eine Person in diesem Telefonverzeichnis, so lesen Sie nicht alle Telefoneinträge durch, sondern schränken die Suche über die bereits bekannten Informationen der zu suchenden Person ein. Zunächst nehmen Sie das gröbste Suchkriterium und verfeinern dann die Kriterien, bis die Einträge, die sie lesen müssen, nur noch wenige Zeilen umfassen.
Dazu nehmen Sie das entsprechende Telefonbuch aus der Region der zu suchenden Person, suchen dann nach dem Nachnamen und danach nach dem Vornamen. Finden Sie keine exakte Schreibweise, suchen Sie in der Umgebung des Nachnamens nach ähnlichen Schreibweisen.
Die Suchumgebung arbeitet nach dem gleichen Prinzip. Definieren Sie dazu beliebige Indizes über mehrere der Felder, über die Sie abgleichen. Beginnen Sie dazu mit dem gröbsten Suchbereich, beispielsweise der PLZ oder dem Ortsnamen, und verfeinern Sie die Suche mit weiteren Informationen wie Straßenname, Hausnummer und Firmenname. Beachten Sie dabei, dass Sie mehrere Indizes definieren, da im Falle einer Fehlschreibweise in einem der in der Indexumgebung enthaltenen Felder (vor allem dem Indexfeld 1) die Suchumgebung möglicherweise zu keinem Treffer führt. Wir empfehlen, dass jedes wichtige Matrix-Feld mindestens einmal in Indexfeld 1 vorkommen soll (üblicherweise sind dies PLZ, Ort und Name).
Nach der Erstellung der Indizes definieren Sie die Größe der Suchtiefe. Diese legt fest, wie viele Datensätze vor und hinter einem Datensatz miteinander verglichen werden. Als Standardwert empfehlen wir 100. Je nach Größe der Datenbank oder Ähnlichkeit der Feldinhalte ist jedoch eine Anpassung der Suchtiefe angeraten.
Suchumgebung bei einem Datenziel
Damit FACT bzw. WorldMatch auf einem Datenziel suchen können, muss mindestens eine (besser mehrere) Suchumgebung aufgebaut werden. Für eine FACT-Finder-Datenbank kann eine Suchumgebung auch über die Einstellungen des Genauigkeitsreglers ersetzt werden. Diese Einstellungen sind jedoch indirekter Natur, da sie mehrere Parameter gleichzeitig betreffen.
Suchumgebung bei einer Datenquelle
Auch auf einer Datenquelle muss mindestens eine angelegte Suchumgebung existieren, damit auf dem Datenbestand gesucht werden kann. Sobald eine Suchumgebung für die Datenquelle angelegt wird, erzeugt der Data Quality Server einen entsprechenden Index in der Datenbank für die Tabelle, auf welche die Datenquelle verweist.