Dokument: Facilitating Knowledge Graph Analysis – Acquisition and Large-Scale Analysis of Topological Graph Measures

Titel:

Facilitating Knowledge Graph Analysis – Acquisition and Large-Scale Analysis of Topological Graph Measures

URL für Lesezeichen:

https://docserv.uni-duesseldorf.de/servlets/DocumentServlet?id=55326

URN (NBN):

urn:nbn:de:hbz:061-20210210-093521-4

Kollektion:

Dissertationen

Sprache:

Englisch

Dokumententyp:

Wissenschaftliche Abschlussarbeiten » Dissertation

Medientyp:

Text

Autor:

Zloch, Matthäus [Autor]

Dateien:

[Dateien anzeigen]	Adobe PDF
[Details]	6,45 MB in einer Datei
[ZIP-Datei erzeugen]
Dateien vom 28.01.2021 / geändert 28.01.2021

Beitragende:

Prof. Dr. Conrad, Stefan [Gutachter]
Prof. Dr. Dietze, Stefan [Gutachter]

Stichwörter:

Knowledge graphs, Wissensgraphen, RDF graph, RDF, Graph analysis

Dewey Dezimal-Klassifikation:

000 Informatik, Informationswissenschaft, allgemeine Werke » 004 Datenverarbeitung; Informatik

Beschreibungen:

In today’s Web, the most common model for structuring knowledge and making it machine-readable is the knowledge graph. In this model, vertices represent Web entities that encode real-world objects as URIs (Uniform Resource Identifiers); edges are labeled, and represent relationships between these entities, which are modeled by knowledge-domain-specific vocabularies and predefined schemas.

The topology of knowledge graphs differs fundamentally from other topologies, for example those of computer networks or social graphs. This is because, first, knowledge graphs contain hierarchical (typed) as well as transversal relationships between vertices. Second, the shape of the graph topology is significantly influenced, on the one hand, by knowledge-domain-specific vocabulary usage defined by particular schemas and, on the other hand, by the inconsistent modeling habits of researchers and modeling tools. Analyzing and understanding the distinct topology, and employing meaningful measures for the appropriate characterization of knowledge graphs is crucial, and can guide and inform the development of, for example, profiling tools, benchmarking solutions, efficient data structures and indexes, and compression techniques. Traditional measures known from network science inadequately capture the semantics that knowledge graph topologies entail. Therefore, it is of central importance to provide appropriate tools for the analysis, and proper measures for the characterization of knowledge graphs.

The present cumulative dissertation is motivated by this. It makes three scientific contributions, each of which constitutes one part of the thesis.
The first part of the thesis introduces and describes a software framework that consolidates third-party tools for the acquisition and preparation of knowledge graphs in order to enable graph-related tasks on their topology. We perform a large-scale analysis of 280 knowledge graphs from nine knowledge domains provided by the Linked Open Data (LOD) Cloud, and we calculate 54 different graph measures with this tool. The analysis results and the processed graph objects are available to the research community for further processing.

Building on this, the second part of the thesis deals with the investigation of commonly used measures from network analysis as well as measures that have been specially introduced for the characterization of RDF knowledge graphs. We examine them in terms of their relevance and meaningfulness for generating concise descriptions of knowledge graph topologies. In particular, we seek to find measures that have the capacity to discriminate graphs from other knowledge domains in order to reveal knowledge domain specificities and derive corresponding implications for existing solutions. To this end, we employ various statistical methods and a state-of-the-art machine learning classification model.

In the third and final part of this thesis, we employ our framework introduced earlier to propose solutions in other research areas of knowledge graphs. We deal with database benchmarks for knowledge graphs and address the criticism that RDF benchmarks deliver less reliable results due to the usage of synthetic queries for runtime measurements. To this end, we propose a functionality of our framework to leverage programmatic graph representations from knowledge graphs to generate application-specific queries based on real-world data. Furthermore, we present a flexible "business use case"-driven approach, which allows to assess response times of database queries more reliably by means of building query groups.

This thesis is based on published papers submitted to high-ranked international peer-reviewed open access journals, international conferences, and workshops in the research area of Semantic Web technologies. As a commitment to open science, all code and resources have been published as open source projects under MIT license on popular code and data hosting platforms.

Im heutigen Web ist der Wissensgraph (engl. knowledge graph) das gebräuchlichste Modell, um Wissen zu strukturieren und maschinenlesbar zu machen. In diesem Modell sind Knoten typisiert und repräsentieren Objekte der realen Welt, die als Web-Entitäten kodiert sind; Kanten sind bezeichnet und stellen Beziehungen zwischen den Knoten dar, die mit Hilfe von wissensdomänenspezifischen Vokabularen und vordefinierten Schemata modelliert werden.

Die Topologie eines Wissensgraphen, die sich grundsätzlich von anderen Topologien, wie z.B. der von Computernetzwerken oder sozialen Graphen, unterscheidet, ist durch besondere Merkmale gekennzeichnet: Wissensgraphen enthalten sowohl hierarchische (typisierte) als auch transversale Beziehungen zwischen Knoten. Weiter, ist die Topologie der Verwendung von vordefinierten wissensdomänenspezifischen Vokabularen sowie den unbeständigen Modellierungsgewohnheiten von Forschern ausgesetzt.
Die Analyse und das Verständnis der spezifischen Topologie sowie die Anwendung geeigneter Maße für die Beschreibung von Wissensgraphen kann die Entwicklung von z.B. Werkzeugen für die Profilbildung, Datenbank-Benchmarks, effizienten Datenstrukturen und Indizes, sowie Techniken zur Komprimierung von Graphdaten unterstützen und beeinflussen. Traditionelle Maße, die aus der Netzwerkanalyse bekannt sind, erfassen nur unzureichend die Semantik, die die Topologie eines Wissensgraphen mit sich bringt. Es ist daher von zentraler Bedeutung entsprechende Werkzeuge für die Analyse und geeignete Maße für die Charakterisierung von Wissensgraphen zur Verfügung zu stellen.

Davon motiviert widmet sich die vorliegende kumulative Arbeit diesem Themengebiet in drei Teilen.
Der erste Teil der Arbeit befasst sich mit der Einführung und Beschreibung eines Software Frameworks, welches der Akquisition von Wissensgraphen und deren Aufbereitung als Objektmodell dient sowie weitere graphtopologiebezogene Operationen zur Verfügung stellt. Mit diesem Werkzeug haben wir eine groß angelegte Analyse mit 280 Wissensgraphen aus neun Wissensdomänen durchgeführt und 54 verschiedene Graphmaße berechnet. Die Ergebnisse der Analyse und die aufbereiteten Graphobjekte sind Forschenden zur weiteren Verarbeitung frei zugänglich gemacht worden.

Darauf aufbauend befasst sich der zweite Teil der Arbeit mit der Untersuchung von bekannten Maßen aus der Netzwerkanalyse und Maßen die speziell für die Charakterisierung von Wissensgraphen entwickelt wurden. Unter Verwendung von statistischen Methoden und eines Machine Learning Klassifikationsverfahrens untersuchen wir ihre Aussagekraft und Relevanz hinsichtlich der Generierung prägnanter Beschreibungen von Wissensgraphen. Außerdem analysieren wir Maße, die geeignet sind, Graphen von anderen Wissensdomänen zu unterscheiden, um so wissensdomänenspezifische Besonderheiten aufzudecken und entsprechende Implikationen für bestehende Lösungen ableiten zu können.

Im dritten und letzten Teil der Arbeit verwenden wir unsere Ergebnisse aus dem ersten Teil, um Lösungen in anderen, für Wissensgraphen relevanten, Forschungsgebieten anzubieten. Wir befassen uns mit Datenbank-Benchmarks für Wissensgraphen und der Kritik an ihnen nur unzureichende Aussagen zu liefern, sofern synthetische Anfragen für Laufzeitmessungen verwendet werden. Wir stellen daher eine weitere Funktionalität unseres zuvor entwickelten Frameworks vor. Diese ermöglicht es anwendungsspezifische Anfragen auf der Grundlage von realen Daten aus Wissensgraphen zu generieren. Ferner stellen wir einen flexiblen und „business use case“-getriebenen Ansatz vor, der erlaubt durch Gruppenbildung Antwortzeiten von Datenbankanfragen realistischer zu beurteilen.

Diese Dissertation basiert auf zuvor veröffentlichten Papieren, die in hochrangigen internationalen Open-Access-Zeitschriften, auf internationalen Konferenzen und Workshops auf dem Forschungsgebiet der Semantic Web-Technologien per peer-review Verfahren begutachtet und publiziert wurden. Als Bekenntnis zur Offenen Wissenschaft wurden alle Programme und Ressourcen als Open-Source-Projekte unter MIT-Lizenz auf populären Quellcode- und Datenhosting-Plattformen veröffentlicht.

Lizenz:

Urheberrechtsschutz

Fachbereich / Einrichtung:

Mathematisch- Naturwissenschaftliche Fakultät » WE Informatik » Datenbanken und Informationssysteme

Dokument erstellt am:

10.02.2021

Dateien geändert am:

10.02.2021

Promotionsantrag am:

26.11.2020

Datum der Promotion:

26.01.2021

Heinrich-Heine-Universität Düsseldorf

Dokument: Facilitating Knowledge Graph Analysis – Acquisition and Large-Scale Analysis of Topological Graph Measures