Dokument: Improving Knowledge Accessibility on the Web - from Knowledge Base Augmentation to Search as Learning

Titel:Improving Knowledge Accessibility on the Web - from Knowledge Base Augmentation to Search as Learning
URL für Lesezeichen:https://docserv.uni-duesseldorf.de/servlets/DocumentServlet?id=52678
URN (NBN):urn:nbn:de:hbz:061-20200324-084036-8
Kollektion:Dissertationen
Sprache:Englisch
Dokumententyp:Wissenschaftliche Abschlussarbeiten » Dissertation
Medientyp:Text
Autor: Yu, Ran [Autor]
Dateien:
[Dateien anzeigen]Adobe PDF
[Details]3,83 MB in einer Datei
[ZIP-Datei erzeugen]
Dateien vom 18.03.2020 / geändert 18.03.2020
Beitragende:Prof. Dr. Dietze, Stefan [Gutachter]
Prof. Dr. Conrad, Stefan [Gutachter]
Prof. Dr. Hauff, Claudia [Gutachter]
Dewey Dezimal-Klassifikation:000 Informatik, Informationswissenschaft, allgemeine Werke » 004 Datenverarbeitung; Informatik
Beschreibungen:The World Wide Web constitutes the largest collection of knowledge and is accessed by billions of users in their daily lives through applications such as search engines and smart assistants. However, most of the knowledge available on the Web is unstructured and is difficult for machines to process which leads to the lowered performance of such smart applications. Hence improving the accessibility of knowledge on the Web for machines is a prerequisite for improving the performance of such applications. Knowledge base as one of the most commonly used types of machine-readable knowledge resources, is inherently incomplete, particularly with respect to tail entities and properties. Improving the completeness and correctness of knowledge bases is one of the major challenges for improving the knowledge accessibility for machines.

Web search is one of the most ubiquitous online activities, commonly used to acquire new knowledge and to satisfy learning-related objectives. The im- portance of learning as an outcome of Web search has been recognized widely, leading to a variety of research at the intersection of information retrieval, human-computer interaction and learning-oriented sciences. Yet, there is a lack of understanding of the impact of Web search on a user’s knowledge state. Understanding and automatically predicting the knowledge gain of users can be an important step forward if Web search engines that are currently opti- mized for relevance can be molded to better serve human learning needs.

In this thesis, we focus on improving the accessibility of knowledge on the Web for both machines and humans. We carried out comprehensive analysis of knowledge resources and learning related Web search sessions. Furthermore, we propose automated approaches to improve the completeness and correctness of knowledge bases and to allow search systems to understand human learning. To this end we make the following contributions as part of this thesis:
• Knowledge Base Augmentation with Structured Web Markup. As a com- plementary data source, embedded entity markup based on Microdata, RDFa, and Microformats have become prevalent on the Web and con- stitute an unprecedented source of data with significant potential to aid the task of knowledge base augmentation (KBA). RDF statements ex- tracted from markup are fundamentally different from traditional knowl- edge graphs: entity descriptions are flat, facts are highly redundant and of varied quality, and, explicit links are missing despite a vast amount of coreferences. We present a novel approach which addresses these issues through a combination of entity matching and fusion techniques geared towards the specific challenges associated with Web markup. To ensure precise and non-redundant results, we follow a supervised learning ap-proach based on a set of features considering aspects such as quality and relevance of entities, facts and their sources. We perform a thorough evaluation on a subset of the Web Data Commons dataset and show significant potential for augmenting existing knowledge bases. A com- parison with existing data fusion baselines demonstrates the superior performance of our approach when applied to Web markup data.
• Analyzing Knowledge Gain of Users in Informational Search Sessions on the Web. We present a study addressing the knowledge gain of users in informational search sessions. Using crowdsourcing, we recruited 500 distinct users and orchestrated real-world search sessions spanning 10 different topics and information needs. By using scientifically formulated knowledge tests we calibrated the knowledge of users before and after their search sessions, quantifying their knowledge gain. We investigated the impact of information needs on the search behavior and knowledge gain of users, revealing a significant effect of information need on user queries and navigational patterns, but no direct effect on the knowledge gain. Users on average exhibited a higher knowledge gain through search sessions pertaining to topics they were less familiar with.
• Predicting User Knowledge Gain in Informational Search Sessions. We introduce supervised models to predict a user’s knowledge state and knowledge gain from features captured during a search session. Our supervised models utilise and derive a comprehensive set of features from the current state-of-the-art and compare the performance of a range of feature sets and feature selection strategies. Through our results, we demonstrate the ability to predict and classify the knowledge state and gain using features obtained during search sessions. Our models exhibit superior performance to an existing baseline in the knowledge state prediction task.
• Topic-independent Modeling of User Knowledge in Informational Search Sessions. Our previous investigation shows that it is possible to build supervised models to predict a user’s knowledge gain and knowledge state from user interactions during a search session. However, the char- acteristics of the resources that a user interacts with have neither been sufficiently explored, nor exploited in this task. Hence, we further our exploration and introduce a novel set of resource-centric features and demonstrate their capacity to significantly improve supervised models for the task of predicting knowledge gain and knowledge state of users in Web search sessions. We make important contributions, given that reliable training data for such tasks is sparse and costly to obtain. More importantly, we introduce various feature selection strategies geared to- wards selecting a limited subset of effective and generalizable features.viii The experimental result demonstrates that our approach improves the performance of knowledge prediction models on search sessions of unseen topics.

Das World Wide Web stellt die größte Sammlung menschlichen Wissens dar und wird von Milliarden von Nutzern in ihrem täglichen Leben über Anwen- dungen wie Suchmaschinen und intelligente Assistenten genutzt. Der größte Teil des im Web verfügbaren Wissens ist jedoch unstrukturiert und für Maschi- nen schwer zu verarbeiten, was zu einer geringeren Leistung solcher intelli- genten Anwendungen führt. Die Verbesserung der Maschinenlesbarkeit von Wissen im Web ist daher eine Voraussetzung für die Verbesserung der Perfor- mance solcher Anwendungen. Wissensdatenbanken als eine der am häufigsten verwendeten Arten von maschinenlesbaren Ressourcen sind von Natur aus un- vollständig, insbesondere in Bezug auf Tail-Entitäten und Eigenschaften. Die Verbesserung der Vollständigkeit und Korrektheit von Wissensdatenbanken ist eine der größten Herausforderungen bei der Verbesserung der Zugänglichkeit von Wissen für Maschinen.
Die Websuche ist eine der allgegenwärtigsten Online-Aktivitäten, die häufig genutzt wird, um neues Wissen zu erwerben und lernbezogene Ziele zu erre- ichen. Die Bedeutung von Lernen als Ergebnis der Websuche wurde allgemein anerkannt, was zu einer Vielzahl von Forschungsarbeiten an der Schnittstelle von Informationsbeschaffung, Mensch-Computer-Interaktion und lernorientier- ten Wissenschaften führte.
Dennoch fehlt es an Verständnis für die Auswirkungen der Websuche auf den Wissensstand eines Benutzers. Das Verstehen und die automatische Vorher- sage des Wissenszuwachses der Nutzer kann ein wichtiger Schritt nach vorne sein, wenn Websuchmaschinen, die derzeit für die Relevanz optimiert sind, so gestaltet werden können, dass sie den menschlichen Lernergebnissen dienen.
In dieser Arbeit konzentrieren wir uns auf die Verbesserung der Zugänglich- keit von Wissen im Web für Maschinen und Menschen. Wir haben eine umfassende Analyse der Wissensressourcen und lernbezogene Suchvorgänge durchgeführt. Darüber hinaus schlagen wir automatisierte Ansätze vor, die die Vollständigkeit und Korrektheit der Wissensdatenbanken verbessern und es Suchsystemen ermöglichen, das Lernen der Benutzer zu verstehen. Zu diesem Zweck leisten wir im Rahmen dieser Arbeit die folgenden Beiträge:
• Knowledge Base Augmentation mit Structured Web Markup. Als ergänzen- de Datenquelle hat sich das Embedded Entity Markup auf Basis von Mikrodaten, RDFa und Mikroformaten im Web durchgesetzt und stellt eine beispiellose Datenquelle mit erheblichem Potenzial zur Unterstützung der Aufgabe der Wissensbasis-Augmentation (KBA) dar. RDF-Anweisun- gen, die aus Markup extrahiert werden, unterscheiden sich grundlegendvon traditionellen Wissensdiagrammen: Entitätsbeschreibungen sind flach, Fakten sind hoch redundant und von unterschiedlicher Qualität. Trotz einer Vielzahl von Co-Referenzen fehlen explizite Links. Wir präsentieren einen neuartigen Ansatz, der diese Probleme durch eine Kombination von Entity-Matching und Fusionstechniken löst, die auf die spezifischen Herausforderungen im Zusammenhang mit Web- Markup zugeschnitten sind. Um präzise und nicht redundante Ergeb- nisse zu gewährleisten, verfolgen wir einen überwachten Lernansatz, der auf einer Reihe von Merkmalen basiert, die Aspekte wie Qualität und Relevanz von Einheiten, Fakten und deren Quellen berücksichtigen. Wir führen eine gründliche Evaluierung eines Teilsatzes des Web Data Com- mons Datensatzes durch und zeigen signifikantes Potenzial für die Er- weiterung bestehender Wissensbestände. Ein Vergleich mit bestehenden Datenfusionsbasislinien zeigt eine überlegene Leistung unseres Ansatzes bei der Anwendung auf Web-Markup-Daten.
• Analyse des Wissensvorsprungs von Benutzern in informativen Such- sitzungen im Web. Wir stellen eine Studie vor, die sich mit dem Wis- sensgewinn der Nutzer bei der Informationssuche befasst. Mit Hilfe von Crowd-sourcing rekrutierten wir 500 verschiedene Benutzer und organ- isierten reale Suchsitzungen, die 10 verschiedene Themen und Infor- mationsbedürfnisse abdeckten. Mit Hilfe wissenschaftlich formulierter Wissenstests kalibrieren wir das Wissen der Nutzer vor und nach ihrer Suche und quantifizieren ihren Erkenntnisgewinn. Wir untersuchten die Auswirkungen des Informationsbedarfs auf das Suchverhalten und den Wissensgewinn der Nutzer und zeigten einen signifikanten Einfluss des Informationsbedarfs auf Benutzeranfragen und Navigationsmuster, aber keinen direkten Einfluss auf den Wissensgewinn. Die Nutzer wiesen im Durchschnitt einen höheren Wissensgewinn durch Suchsitzungen zu The- men auf, die ihnen weniger bekannt waren.
• Vorhersage des Wissenszuwachses der Benutzer in informativen Such- sitzungen. Wir stellen ein überwachtes Modell vor, das den Wissens- stand eines Benutzers und seinen Wissensgewinn durch die während der Suchvorgänge erfassten Funktionen vorhersagt. Wir verwenden einen umfassenden Satz von Feature-Sets und Feature-Selection-Strategien aus dem aktuellen Stand der Technik sowie unserer eigenen Forschung und vergleichen deren Leistung in unseren Modellen. Unsere Ergebnisse zeigen, dass es möglich ist, den Wissensstand und den Wissenszuwachs mit Hilfe von Merkmalen, die während der Suchvorgänge gesammelt wur- den, vorherzusagen und zu klassifizieren. Unser Vorhersagemodell zeigt dabei eine verbesserte Leistung im Vergleich zu einer bestehenden Base- line für die Vorhersage des Wissensstandes.xii
• Themenunabhängige Modellierung von Benutzerwissen in informativen Suchsitzungen. Unsere Untersuchung zeigt, dass es möglich ist, überwachte Modelle zu erstellen, mit denen der Wissensgewinn und der Wissens- stand eines Benutzers durch Benutzerinteraktionen während einer Such- sitzung vorhergesagt werden kann. Die Eigenschaften der Ressourcen, mit denen ein Benutzer interagiert, sind jedoch bei dieser Aufgabe weder ausreichend erforscht noch genutzt worden. Daher setzen wir unsere Forschung fort und stellen eine Reihe neuartiger ressourcenzentrierter Funktionen vor sowie ihre Fähigkeit, überwachte Modelle für die Vorher- sage von Wissenszuwachs und Wissensstand der Nutzer in Web-Suchvor- gängen deutlich zu verbessern. Unsere Beiträge sind wichtig, denn zu- verlässige Trainingsdaten für solche Aufgaben sind spärlich und teuer zu beschaffen. Wir stellen verschiedene Strategien zur Featureauswahl vor, die darauf abzielen, eine spezifische Teilmenge von effektiven und verallgemeinerbaren Features zu selektieren.
Lizenz:In Copyright
Urheberrechtsschutz
Fachbereich / Einrichtung:Mathematisch- Naturwissenschaftliche Fakultät » WE Informatik
Dokument erstellt am:24.03.2020
Dateien geändert am:24.03.2020
Promotionsantrag am:26.09.2019
Datum der Promotion:13.02.2020
english
Benutzer
Status: Gast
Aktionen