Dokument: Facilitating Knowledge Graph Analysis – Acquisition and Large-Scale Analysis of Topological Graph Measures

Titel:Facilitating Knowledge Graph Analysis – Acquisition and Large-Scale Analysis of Topological Graph Measures
URL für Lesezeichen:https://docserv.uni-duesseldorf.de/servlets/DocumentServlet?id=55326
URN (NBN):urn:nbn:de:hbz:061-20210210-093521-4
Kollektion:Dissertationen
Sprache:Englisch
Dokumententyp:Wissenschaftliche Abschlussarbeiten » Dissertation
Medientyp:Text
Autor: Zloch, Matthäus [Autor]
Dateien:
[Dateien anzeigen]Adobe PDF
[Details]6,45 MB in einer Datei
[ZIP-Datei erzeugen]
Dateien vom 28.01.2021 / geändert 28.01.2021
Beitragende:Prof. Dr. Conrad, Stefan [Gutachter]
Prof. Dr. Dietze, Stefan [Gutachter]
Stichwörter:Knowledge graphs, Wissensgraphen, RDF graph, RDF, Graph analysis
Dewey Dezimal-Klassifikation:000 Informatik, Informationswissenschaft, allgemeine Werke » 004 Datenverarbeitung; Informatik
Beschreibungen:In today’s Web, the most common model for structuring knowledge and making it machine-readable is the knowledge graph. In this model, vertices represent Web entities that encode real-world objects as URIs (Uniform Resource Identifiers); edges are labeled, and represent relationships between these entities, which are modeled by knowledge-domain-specific vocabularies and predefined schemas.

The topology of knowledge graphs differs fundamentally from other topologies, for example those of computer networks or social graphs. This is because, first, knowledge graphs contain hierarchical (typed) as well as transversal relationships between vertices. Second, the shape of the graph topology is significantly influenced, on the one hand, by knowledge-domain-specific vocabulary usage defined by particular schemas and, on the other hand, by the inconsistent modeling habits of researchers and modeling tools. Analyzing and understanding the distinct topology, and employing meaningful measures for the appropriate characterization of knowledge graphs is crucial, and can guide and inform the development of, for example, profiling tools, benchmarking solutions, efficient data structures and indexes, and compression techniques. Traditional measures known from network science inadequately capture the semantics that knowledge graph topologies entail. Therefore, it is of central importance to provide appropriate tools for the analysis, and proper measures for the characterization of knowledge graphs.

The present cumulative dissertation is motivated by this. It makes three scientific contributions, each of which constitutes one part of the thesis.
The first part of the thesis introduces and describes a software framework that consolidates third-party tools for the acquisition and preparation of knowledge graphs in order to enable graph-related tasks on their topology. We perform a large-scale analysis of 280 knowledge graphs from nine knowledge domains provided by the Linked Open Data (LOD) Cloud, and we calculate 54 different graph measures with this tool. The analysis results and the processed graph objects are available to the research community for further processing.

Building on this, the second part of the thesis deals with the investigation of commonly used measures from network analysis as well as measures that have been specially introduced for the characterization of RDF knowledge graphs. We examine them in terms of their relevance and meaningfulness for generating concise descriptions of knowledge graph topologies. In particular, we seek to find measures that have the capacity to discriminate graphs from other knowledge domains in order to reveal knowledge domain specificities and derive corresponding implications for existing solutions. To this end, we employ various statistical methods and a state-of-the-art machine learning classification model.

In the third and final part of this thesis, we employ our framework introduced earlier to propose solutions in other research areas of knowledge graphs. We deal with database benchmarks for knowledge graphs and address the criticism that RDF benchmarks deliver less reliable results due to the usage of synthetic queries for runtime measurements. To this end, we propose a functionality of our framework to leverage programmatic graph representations from knowledge graphs to generate application-specific queries based on real-world data. Furthermore, we present a flexible "business use case"-driven approach, which allows to assess response times of database queries more reliably by means of building query groups.

This thesis is based on published papers submitted to high-ranked international peer-reviewed open access journals, international conferences, and workshops in the research area of Semantic Web technologies. As a commitment to open science, all code and resources have been published as open source projects under MIT license on popular code and data hosting platforms.

Im heutigen Web ist der Wissensgraph (engl. knowledge graph) das gebräuchlichste Modell, um Wissen zu strukturieren und maschinenlesbar zu machen. In diesem Modell sind Knoten typisiert und repräsentieren Objekte der realen Welt, die als Web-Entitäten kodiert sind; Kanten sind bezeichnet und stellen Beziehungen zwischen den Knoten dar, die mit Hilfe von wissensdomänenspezifischen Vokabularen und vordefinierten Schemata modelliert werden.

Die Topologie eines Wissensgraphen, die sich grundsätzlich von anderen Topologien, wie z.B. der von Computernetzwerken oder sozialen Graphen, unterscheidet, ist durch besondere Merkmale gekennzeichnet: Wissensgraphen enthalten sowohl hierarchische (typisierte) als auch transversale Beziehungen zwischen Knoten. Weiter, ist die Topologie der Verwendung von vordefinierten wissensdomänenspezifischen Vokabularen sowie den unbeständigen Modellierungsgewohnheiten von Forschern ausgesetzt.
Die Analyse und das Verständnis der spezifischen Topologie sowie die Anwendung geeigneter Maße für die Beschreibung von Wissensgraphen kann die Entwicklung von z.B. Werkzeugen für die Profilbildung, Datenbank-Benchmarks, effizienten Datenstrukturen und Indizes, sowie Techniken zur Komprimierung von Graphdaten unterstützen und beeinflussen. Traditionelle Maße, die aus der Netzwerkanalyse bekannt sind, erfassen nur unzureichend die Semantik, die die Topologie eines Wissensgraphen mit sich bringt. Es ist daher von zentraler Bedeutung entsprechende Werkzeuge für die Analyse und geeignete Maße für die Charakterisierung von Wissensgraphen zur Verfügung zu stellen.

Davon motiviert widmet sich die vorliegende kumulative Arbeit diesem Themengebiet in drei Teilen.
Der erste Teil der Arbeit befasst sich mit der Einführung und Beschreibung eines Software Frameworks, welches der Akquisition von Wissensgraphen und deren Aufbereitung als Objektmodell dient sowie weitere graphtopologiebezogene Operationen zur Verfügung stellt. Mit diesem Werkzeug haben wir eine groß angelegte Analyse mit 280 Wissensgraphen aus neun Wissensdomänen durchgeführt und 54 verschiedene Graphmaße berechnet. Die Ergebnisse der Analyse und die aufbereiteten Graphobjekte sind Forschenden zur weiteren Verarbeitung frei zugänglich gemacht worden.

Darauf aufbauend befasst sich der zweite Teil der Arbeit mit der Untersuchung von bekannten Maßen aus der Netzwerkanalyse und Maßen die speziell für die Charakterisierung von Wissensgraphen entwickelt wurden. Unter Verwendung von statistischen Methoden und eines Machine Learning Klassifikationsverfahrens untersuchen wir ihre Aussagekraft und Relevanz hinsichtlich der Generierung prägnanter Beschreibungen von Wissensgraphen. Außerdem analysieren wir Maße, die geeignet sind, Graphen von anderen Wissensdomänen zu unterscheiden, um so wissensdomänenspezifische Besonderheiten aufzudecken und entsprechende Implikationen für bestehende Lösungen ableiten zu können.

Im dritten und letzten Teil der Arbeit verwenden wir unsere Ergebnisse aus dem ersten Teil, um Lösungen in anderen, für Wissensgraphen relevanten, Forschungsgebieten anzubieten. Wir befassen uns mit Datenbank-Benchmarks für Wissensgraphen und der Kritik an ihnen nur unzureichende Aussagen zu liefern, sofern synthetische Anfragen für Laufzeitmessungen verwendet werden. Wir stellen daher eine weitere Funktionalität unseres zuvor entwickelten Frameworks vor. Diese ermöglicht es anwendungsspezifische Anfragen auf der Grundlage von realen Daten aus Wissensgraphen zu generieren. Ferner stellen wir einen flexiblen und „business use case“-getriebenen Ansatz vor, der erlaubt durch Gruppenbildung Antwortzeiten von Datenbankanfragen realistischer zu beurteilen.

Diese Dissertation basiert auf zuvor veröffentlichten Papieren, die in hochrangigen internationalen Open-Access-Zeitschriften, auf internationalen Konferenzen und Workshops auf dem Forschungsgebiet der Semantic Web-Technologien per peer-review Verfahren begutachtet und publiziert wurden. Als Bekenntnis zur Offenen Wissenschaft wurden alle Programme und Ressourcen als Open-Source-Projekte unter MIT-Lizenz auf populären Quellcode- und Datenhosting-Plattformen veröffentlicht.
Fachbereich / Einrichtung:Mathematisch- Naturwissenschaftliche Fakultät » WE Informatik » Datenbanken und Informationssysteme
Dokument erstellt am:10.02.2021
Dateien geändert am:10.02.2021
Promotionsantrag am:26.11.2020
Datum der Promotion:26.01.2021
english
Benutzer
Status: Gast
Aktionen