Dokument: Improving Integration Quality for Heterogeneous Data Sources

Titel:Improving Integration Quality for Heterogeneous Data Sources
URL für Lesezeichen:https://docserv.uni-duesseldorf.de/servlets/DocumentServlet?id=3041
URN (NBN):urn:nbn:de:hbz:061-20050209-001041-1
Kollektion:Dissertationen
Sprache:Englisch
Dokumententyp:Wissenschaftliche Abschlussarbeiten » Dissertation
Medientyp:Text
Autor: Altareva, Evgeniya [Autor]
Dateien:
[Dateien anzeigen]Adobe PDF
[Details]677,3 KB in einer Datei
[ZIP-Datei erzeugen]
Dateien vom 09.02.2007 / geändert 09.02.2007
Beitragende:Prof. Dr. Conrad, Stefan [Gutachter]
Prof. Dr. Haeseler, Arndt von [Gutachter]
Stichwörter:Integration, Integrationsqualität, Datenqualität, Unsicherheit, Latent-Class-Analyse, Heterogene Datenquellen, Schemaintegration, DatenintegrationIntegration, Integration Quality, Data Quality, Uncertainty, Latent Class Analysis, Heterogeneous Data Sources, Schema Integration, Data Integration
Dewey Dezimal-Klassifikation:000 Informatik, Informationswissenschaft, allgemeine Werke » 004 Datenverarbeitung; Informatik
Beschreibungen:Diese Dissertation betrachtet das Problem der Integration von heterogenen semistrukturierten Datenquellen zwecks Bewertung der Integrationsqualität (IQ). Integration solcher Datenquellen führt zu Ergebnissen mit nicht absehbarer Zuverlässigkeit, und keine der vorhandenen Methoden ist in der Lage die Unsicherheiten zu berechnen, die sich in den aufeinanderfolgenden Integrationsschritten aggregieren und die Integrationsqualität beeinflussen. Um die Unsicherheiten zu berechnen, schlagen wir die Benutzung einer etablierten statistischen Methode, der Latent-Class-Analyse (LCA), vor. Diese Methode erlaubt uns, den Einfluss der latenten Faktoren zu analysieren, die mit den Real-Welt Entitäten assoziiert sind. Wir zeigen an Beispielen, wie das vorgeschlagene Framework für die Bewertung und die Verbesserung von IQ verwendet werden kann und gleichzeitig Anwendern, die für die Zuverlässigkeit von Daten zuständig sind, als ein wichtiges Werkzeug dienen kann.

This thesis considers a problem of integrating heterogeneous semi-structured data sources with the purpose of estimating integration quality (IQ). Integration of such data sources leads to results with unpredictable trustworthiness and none of the existing methods is capable of accounting for the uncertainty accumulated over all of the integration steps and affecting integration quality. To compute the uncertainties we suggest using a well-established statistical method Latent Class Analysis (LCA). This method allows to analyze the influence of the latent factors associated with the real-world entities on the set of data. We show on examples how the proposed approach can be used for evaluating and improving IQ giving an important tool to the users concerned with the data's trustworthiness.
Lizenz:In Copyright
Urheberrechtsschutz
Fachbereich / Einrichtung:Mathematisch- Naturwissenschaftliche Fakultät » WE Informatik
Dokument erstellt am:09.02.2005
Dateien geändert am:12.02.2007
Promotionsantrag am:24.01.2005
Datum der Promotion:24.01.2005
english
Benutzer
Status: Gast
Aktionen