Um mit dem Data Quality Server Daten verarbeiten zu können, müssen diese Daten zuerst eingebunden werden. Für eine Suche auf den Live-Daten wird nur eine Datenquelle benötigt. Um den Geschwindigkeitsvorteil des Data Quality Servers nutzen zu können, benötigen Sie eine FACT-Finder-Datenbank oder eine Omikron-Datenbank.

Im Folgenden erlernen Sie die Einrichtung der Datenquelle und die Handhabung der Suchumgebung und der Filter.

Es gibt zwei Möglichkeiten, den Data Quality Server mit Ihren Daten zu verbinden:

  • Es wird direkt auf den Originaldaten gearbeitet.
  • Der Datenbestand wird dupliziert und anschließend auf den vom Data Quality Server verwalteten Tabellen gearbeitet.

Beide Varianten haben unterschiedliche Einsatzszenarien:

Direktzugriff auf Datenbanken

Bei einem Direktzugriff auf die Originaldaten werden die Funktionen des Data Quality Servers auf die bereits bestehende Datenbank angewendet. Sofern keine spezielle Datenbank benötigt wird (beispielsweise FACT-Finder-Datenbank für die FACT-Finder-Adress-Suche), funktionieren alle Module auch mit einem Direktzugriff. Dabei wird die Datenbank immer aktuell gehalten. Die zusätzliche Belastung der Datenbank kann jedoch zu langsamerer Verarbeitungsgeschwindigkeit im Vergleich zum Arbeiten auf einer Datenbank in einem der internen Data Quality Server-Formate führen. Das macht sich besonders dann bemerkbar, wenn sehr viele Anfragen (z. B. Suchanfragen) gleichzeitig abgeschickt werden. Nur durch den Einsatz von Indizes auf der Datenbank, die denselben Aufbau wie die zugehörige Suchumgebung haben, wird eine optimale Performanz erreicht.

Synchronisierter Datenbestand

Bei einem synchronisierten Datenbestand wird eine Kopie der Live-Datenbank angelegt, auf der Datensätze bearbeitet oder gesucht werden. Wird beispielsweise die Datenbank eines CRM-Systems kopiert, werden neue Einträge, wie bisher auch, auf der Live-Datenbank abgespeichert. Suchanfragen werden dabei auf der Datenbank des Data Quality Servers ausgeführt.

Damit die Tabelle für die Suchanfragen aktuell bleibt, sollte diese regelmäßig in Abständen mit den Originaldaten synchronisiert werden. Neue Datensätze können unter Umständen daher nicht sofort gefunden werden, das Arbeiten mit einem synchronisierten Datenbestand ist dafür allerdings wesentlich performanter als bei einem Direktzugriff.

Für die Synchronisation können zwei Verfahren benutzt werden:

  • Push-Synchronisation: Die Daten werden von einem externen System an den Data Quality Server geliefert, dort entgegengenommen und verarbeitet. Die Push-Synchronisation ist nicht über das Management Studio aufrufbar, sondern nur direkt über die Webservices AddRecordToDataDestination und AddMultipleRecordsToDataDestination.
  • Pull-Synchronisation: Die Daten werden vom Data Quality Server über die eingestellte Datenquelle abgeholt und verarbeitet.

Für die Verarbeitung stehen drei Methoden zur Auswahl:

  • Neuindizierung: Das Datenziel wird zurückgesetzt und mit den Daten der Datenquelle neu geladen.
  • Aktualisierung: Alle Daten, die seit der letzten Synchronisation hinzugekommen sind, werden an das bestehende Datenziel angefügt. Geänderte Datensätze werden überschrieben.
  • Löschung: Im Datenziel werden die entsprechenden Datensätze aus der Datenquelle zum Löschen markiert oder direkt gelöscht.

Zusätzlich kann ein Filter eingesetzt werden, der die Datenmenge einschränkt. So ist es beispielsweise möglich, nur die Datensätze zu aktualisieren, die seit der letzten Pull-Synchronisation hinzugefügt oder geändert wurden.


Datenbanken anlegen / editieren

Für alle Funktionen können Sie mit einem Rechtsklick der Maustaste auf den jeweiligen Unterpunkt einen Dialog zur Anlage bzw. zum Editieren öffnen.