Dokument: Instance-Based Ontology Matching and the Evaluation of Matching Systems

Titel:Instance-Based Ontology Matching and the Evaluation of Matching Systems
Weiterer Titel:Instanzbasiertes Ontologie-Matching und die Evaluation von Matching-Systemen
URL für Lesezeichen:https://docserv.uni-duesseldorf.de/servlets/DocumentServlet?id=17091
URN (NBN):urn:nbn:de:hbz:061-20110124-104856-7
Kollektion:Dissertationen
Sprache:Englisch
Dokumententyp:Wissenschaftliche Abschlussarbeiten » Dissertation
Medientyp:Text
Autor: Zaiß, Katrin [Autor]
Dateien:
[Dateien anzeigen]Adobe PDF
[Details]1,51 MB in einer Datei
[ZIP-Datei erzeugen]
Dateien vom 20.01.2011 / geändert 20.01.2011
Dewey Dezimal-Klassifikation:000 Informatik, Informationswissenschaft, allgemeine Werke » 004 Datenverarbeitung; Informatik
Beschreibungen:The matching of heterogeneous information sources is a crucial task in many different domains. In order to find relations between the different pieces of information, which are annotated using different structures and formats, matching systems have been developed. In the past two decades, ontologies became more and more important as a way to represent the semantics of information in a machine read- and processable way. Hence, many ontology matching systems have been developed as well, which make use of the different parts of ontologies to resolve the heterogeneities. Most systems focus on the exploit of schema or structure information, but ontologies also provide instances, which express the semantics of a concept independent of its meta information. Current instance-based matching methods give room for improvements in several aspects.

Matching Systems also need to be evaluated using appropriate test data. Existing benchmarks are not sufficient for testing instance-based methods. In this thesis, we focus on the development of instance-based matching methods, their combination with schema- and structure-based methods and their evaluation.

We introduce two novel instance-based matching methods. The first method makes use of regular expressions or sample values to characterize the concepts of an ontology by their instance sets. The second approach uses the instance sets to calculate many different features like average length or the set of frequent values. Both approaches finally compare the characterizations, i.e. the regular expressions or the features, to obtain similarities between the entity sets of two (or more) ontologies. An alignment between the ontologies is then obtained by examining the similarity set.

In order to test single matching methods or complex matching systems well-defined test benchmarks have to be available, preferably including the correct alignments to facilitate the evaluation. Current benchmarks do not enable extensive studies on instance-based methods, because the number of instances is significantly too low. We present an additional benchmark, ONTOBI, which can be used to test instance-based methods, but also all other kinds of matching algorithms or systems.

Finally, we present MICU, a complex matching system which unifies the advantages of instance-, schema- and structure-based matching methods combined with an efficient user feedback interaction. In order to speed up the process alignments of previous matching cycles are reused.

Heterogene Informationsquellen findet man in vielen unterschiedlichen Gebieten und das Matching (der Abgleich) dieser Quellen ist ein Prozess, der häufig gebraucht wird. Um die Verbindungen zwischen den verschiedenen Informationen, die unterschiedlich formuliert und struktiert sein können, zu finden, wurden Matching-Systeme entwickelt.
Als Struktur zur maschinenles- und verarbeitbaren Repräsentation von Wissen wurden in den letzten zwei Jahrzehnten Ontologien immer populärer.
Folglich wurden auch viele Ontologie-Matching-Systeme entwickelt, welche die unterschiedlichen Elemente der Ontologien untersuchen um die Heterogenitäten zwischen den Ontologien aufzulösen. Dabei verwenden die meisten Systeme hauptsächlich Schema- und Strukturinformationen, obwohl Ontologien auch Instanzen enthalten, welche die Bedeutung der Konzepte unabhängig von jeglichen Meta-Informationen beschreiben. Die bisher existierenden instanzbasierten Methoden bieten noch einigen Raum für Verbesserungen. Diese Arbeit beschäftigt sich mit der Entwicklung neuer instanzbasierter Methoden, ihrer Kombination mit schema- und strukturbasierten Methoden und ihrer Evaluation.

Zu Anfang werden zwei neue instanzbasierte Methoden vorgestellt. Der erste Ansatz verwendet reguläre Ausdrücke oder Beispielwerte um Konzepte einer Ontologie mit Hilfe ihrer jeweiligen Instanzmengen zu charakterisieren. Die zweite Methode berechnet aus der Instanzmenge verschiedene Features (Merkmale) wie die Durchschnittslänge oder die Menge der am häufigsten vorkommenden Werte. In beiden Fällen werden die Charakteristika, d.h. die regulären Ausdrücke oder die Feature-Werte, verglichen um eine Ähnlichkeit zwischen den verschiedenen Elementen der zwei Ontologien zu berechnen. Die paarweisen Ähnlichkeiten werden dann verwendet um die Korrespondenzen zwischen den Ontologien zu finden.

Um einzelne Methoden oder komplexe Matching-Systeme testen zu können, braucht man geeignete Testdaten-Sets, in denen idealerweise auch direkt die Menge der Referenz-Korrespondenzen enthalten sein sollte. Bisher verfügbare Benchmarks bieten jedoch nicht die Möglichkeit instanzbasierte Methoden ausführlich zu testen, da nicht genügend Instanzen vorhanden sind. Mit ONTOBI präsentieren wir einen zusätzlichen Benchmark, mit dem man instanzbasierte, aber auch alle anderen Arten von Matching-Methoden oder -Systemen, testen kann.

Abschließend stellen wir mit MICU ein komplexes Matching-System vor, welches die Vorzüge von instanzbasierten mit denen von schema- und strukturbasierten Methoden kombiniert und dabei effizient mit dem Benutzer zusammenarbeitet. Zusätzlich werden die Ergebnisse früherer Matching-Durchläufe wiederverwendet.
Lizenz:In Copyright
Urheberrechtsschutz
Fachbereich / Einrichtung:Mathematisch- Naturwissenschaftliche Fakultät » WE Informatik » Datenbanken und Informationssysteme
Dokument erstellt am:24.01.2011
Dateien geändert am:24.01.2011
Promotionsantrag am:12.11.2010
Datum der Promotion:10.12.2010
english
Benutzer
Status: Gast
Aktionen