Das FACT-Finder Datenziel ist ein dateibasierter Index zur kontextsensitiven Suche über mehrere Felder (mit lateinischem Datensatz). Die Indexdatei wird vom Data Quality Server komplett in den Speicher geladen.
Beispiel für ein FACT-Finder Datenziel:
.factfinder_db = Datenbank-Datei für Volltextsuche
Reiter Grundeinstellungen
- Name: Ein eindeutiger Name für das Datenziel.
- Passwort: Wenn Sie hier ein Passwort angeben, wird die FACT-Finder-Datenbank verschlüsselt und kann nur mit dem richtigen Passwort wieder ausgelesen werden.
- Beschreibung: Hier kann eine aussagekräftige Beschreibung für das Datenziel eingetragen werden.
- Codepage: Hier muss die Codepage ausgewählt werden, die in der verbundenen Datenquelle vorliegt. Diese Beschränkung fällt im FACT-Finder Worldmatch Datenziel weg.
- Datenbank beim Serverstart laden (Checkbox): Die Datenbank wird schon beim Serverstart in den Speicher geladen, um eine schnelle Verfügbarkeit für Suchanfragen nach einem Neustart zu gewährleisten. Wird die Checkbox nicht markiert, wird die Datenbank erst bei der ersten Suchanfrage geladen und verzögert diese dadurch.
- Datenbank beim Herunterfahren speichern (Checkbox): Ein FACT-Finder-Datenziel wird immer im RAM gehalten. Nach einer Transformation wird eine Kopie dieses Datenziels auf der Festplatte angelegt. Werden nun Änderungen am Datenziel vorgenommen, so geschieht dies aus Effizienzgründen nur im RAM. Änderungen werden in einer Protokolldatei festgehalten.
Wird die Datenbank beim Herunterfahren des Data Quality Servers nicht gespeichert, dann kann beim nächsten Server-Start das FACT-Finder-Datenziel anhand der vorherigen Kopie auf der Festplatte und des Protokolls rekonstruiert werden. Die Rekonstruktion benötigt u.U. sehr lange. Alternativ kann die Festplatten-Kopie des Datenziels im RAM aber auch durch Datenziel neu organisieren im Dialog Datenziel aktualisieren erzeugt werden. Der Dialog ist über die Schaltfläche Aktualisieren im Bearbeitungs-Fenster des FACT-Finder-Datenziels aufrufbar. Datenziel neu organisieren kann auch automatisiert über einen Zeitplan durchgeführt werden. - Multi-Prozess Unterstützung (Checkbox): Es werden mehrere Prozesse gleichzeitig unterstützt. Dadurch werden mehrere Suchanfragen auf verschiedene Prozessorkerne verteilt, was die Bearbeitung beschleunigt. Das ist nur möglich, wenn gleichzeitig die Datenbank beim Serverstart geladen wird. Die Anzahl der Prozesse kann eingestellt werden.
- Während einer Transformation sperren (Checkbox): Die Datenbank ist während einer Transformation gesperrt. Dadurch wird sichergestellt, dass keine Suchanfragen bearbeitet werden, während die Datenbank Daten lädt.
- Use Geo Location (Checkbox): Die dezidierten Geokoordinaten, die für die Erzeugung des Suchindex verwendet werden sollen. Hier können die gewünschten Geokoordinaten eingetragen werden
- Suchoptionen: Beim Klick auf diesen Button
- Genauigkeit: Hinter diesem Regler verbirgt sich eine ganze Ansammlung von Einstellungen wie Suchumgebung, Suchtiefe und voreingestellter Parameter, mit der sich die Geschwindigkeit der Suche entscheidet.
- Max. Suchergebnisse: Hier kann eingestellt werden, wie viele Suchergebnisse höchstens gefunden werden sollen.
- Min. Suchprozent: Dieser Prozentwert gibt die niedrigste Ähnlichkeit an, welche die Ergebnisse haben dürfen.
- Ergebnismenge: Hier wird die Menge der zurückgegebenen Suchergebnisse in Prozent im Verhältnis zur gesamten Ergebnismenge angegeben.
- Suchzeitlimit: Die Suche endet spätestens nach diesem Zeitraum. Die Zeiteinheit ist Millisekunden.
erscheint ein Fenster mit zusätzlichen Einstellmöglichkeiten für die Suche.
Reiter Sucheinstellungen
In diesem Fenster werden alle Felder der Tabelle aufgelistet.
Bei einer FACT-Finder-Suche werden anhand einer Zeichenkette mehrere Felder durchsucht und ein Ergebnis geliefert. Dieses Suchergebnis hat dann eine prozentuale Übereinstimmung mit dem Suchbegriff. Wenn der Suchbegriff in einem abgewerteten Feld gefunden wird, besitzt das Ergebnis eine niedrigere Übereinstimmung – allerdings nur, wenn dieses Feld die höchste Ähnlichkeit zum gesamten Suchstring zeigt. Beispiel: Sie durchsuchen die Felder „Firma“ und „Ort“ und suchen das „Amtsgericht Pforzheim“, suchen aber nur mit dem Suchbegriff „Pforzheim“. Da Pforzheim ein Ort ist, hat jede Firma in Pforzheim eine sehr hohe Übereinstimmung mit dem gesuchten Begriff. Ist der Ort abgewertet, werden nach wie vor alle Firmen gefunden, die in Pforzheim sind, jedoch hat das „Amtsgericht Pforzheim“ eine viel höhere Übereinstimmung als alle anderen Datensätze, da hier Pforzheim (auch) im Feld „Firma“ steht.
Wird der Suchbegriff in dem abgewerteten Feld gefunden, wirkt sich die Abwertung wie folgt aus: Sucht man nach „Pforzheim“ und findet dieses Wort exakt in einem mit 10 % abgewerteten Feld, wird der Ähnlichkeitswert um 2% gesenkt. Diese Funktion verläuft linear, sprich bei 20% Abwertung fällt der Ähnlichkeitswert um 4%. Eine maximale Abwertung von 100 % wirkt sich damit bei einem exakten Treffer mit maximal 20 % geringerer Ähnlichkeit aus – also 80 % Ähnlichkeit.
Bei Teilstrings wirkt sich die Abwertung entsprechend auf die gefundene Ähnlichkeit aus. Beispiel Suche nach „Pforz“, wobei ein Suchfeld den String „Pforzheim“ enthält. Die nicht abgewertete Ähnlichkeit beträgt hier 88,89 %. Ist das Feld mit dem String „Pforzheim“ um 100 % abgewertet, ergibt sich eine endgültige Ähnlichkeit von 71,11 % (= 88,89 – (88,89 * 0,2)).
Wenn ein Suchfeld aus der Suche ausgeschlossen wird, muss der FACT-Finder-Index neu erzeugt werden, sprich das Datenziel über die Transformation neu beladen. Ein Neuorganisieren des Datenziels reicht nicht aus.
- "Durchsuchbar": Alle Felder, die mit einem Häkchen aktiviert sind, werden durchsucht.
- "Abwertung": Um ein Feld abzuwerten, klicken Sie in das gewünschte Feld und geben Sie einen prozentualen Wert zwischen 1 und 99 ein.
- "Asn Spalte": Auswahl für eine Definition von Datenstrukturen, Festlegungen zur Umsetzung von Datenstrukturen und Elementen in ein netzeinheitliches Format, um Web Components einsetzen zu können. Für eine After Search Navigation werden diese Informationen nach außen geführt und man kann in den Web Components entsprechende Filter setzen.
- "Asn Name": Name für die Datenstruktur. (Filtername)
- "Sortierbar": Alle Felder, die mit einem Häkchen aktiviert sind, sind sortierbar.
FACT-Finder bietet außer der kontextsensitiven Suche noch weitere Möglichkeiten. Diese werden im Anhang in Abschnitt „Erweiterte FactFinder Datensatz Suche“ beschrieben.