Dokument: Web Image Context Extraction: Methoden und Evaluation
Titel: | Web Image Context Extraction: Methoden und Evaluation | |||||||
Weiterer Titel: | Web Image Contaxt Extraction: Methods and Evaluation | |||||||
URL für Lesezeichen: | https://docserv.uni-duesseldorf.de/servlets/DocumentServlet?id=20043 | |||||||
URN (NBN): | urn:nbn:de:hbz:061-20111213-084434-9 | |||||||
Kollektion: | Dissertationen | |||||||
Sprache: | Englisch | |||||||
Dokumententyp: | Wissenschaftliche Abschlussarbeiten » Dissertation | |||||||
Medientyp: | Text | |||||||
Autor: | Dr. Alcic, Sadet [Autor] | |||||||
Dateien: |
| |||||||
Beitragende: | Prof. Dr. Conrad, Stefan [Betreuer/Doktorvater] Prof. Dr. Schöttner, Michael [Gutachter] | |||||||
Stichwörter: | Web Data Mining, Web Image Context, Web Search | |||||||
Dewey Dezimal-Klassifikation: | 000 Informatik, Informationswissenschaft, allgemeine Werke » 004 Datenverarbeitung; Informatik | |||||||
Beschreibungen: | Digitale Bilder im Web treten in Webseiten gemeinsam mit wertvollen Texten auf, die zur Generierung von Bildbeschreibungen genutzt werden können. Leider besteht eine Webseite in der Regel aus mehreren Inhalten zu unterschiedlichen Themen, und der Kontext eines einzigen Bildes stellt nur einen Bruchteil des Gesamtinhalts der Webseite dar. Um dennoch qualitative Beschreibungen zu erhalten, ist es notwendig Methoden zu entwickeln, mit denen der Kontext eines Bildes aus einer Webseite extrahiert werden kann.
Bestehende Lösungen aus der Literatur reichen von einfachen Extraktoren, die den gesamten Text einer Webseite übernehmen, bishin zu intelligenteren Methoden, die als Vorverarbeitungsschritt eine Einteilung der Webseite in einzelne Bereiche vornehmen. Um die Qualität der einzelnen Verfahren ermitteln und vergleichen zu können, wurde im Rahmen dieser Arbeit ein Evaluationsframework entwickelt, das eine eigens erzeugte Testdatenmenge (Gold Standard) bestehend aus zwölf Kollektionen umfasst. Zur Bestimmung der Übereinstimmung zwischen der Ausgabe der Extraktionsverfahren und dem Gold Standard wurden geeignete Evaluationsmaße entwickelt und in das Framework integriert. Die meisten existierenden Extraktionsverfahren basieren auf einfache Heuristiken und können daher im Allgemeinen nicht mit der Vielfalt an unterschiedlichen Webseitendesigns umgehen. Unser erster Ansatz fasst deshalb zunächst unabhängig vom Design der Webseite die einzelnen Textinhalte zu möglichen Kontextkandidaten (Artikeln) zusammen und weist dann einem Bild den geeignetsten Kandidaten zu. Dieser Ansatz hat Schwierigkeiten, wenn Tabellen als Layoutelemente verwendet werden und deshalb wird um Konzepte erweitert, welche auch mit HTML-Tabellen umgehen können. Ein weiterer Ansatz basiert auf der Webseitenpartitionierung als Vorverarbeitungsschritt. Ist eine Webseite erstmal in ihre Teilbereiche unterteilt, kann ein Bild mit dem in seinem Bereich enthaltenen Text assoziiert werden. Wir untersuchen ausführlich mehrere Möglichkeiten, die Webseitenpartitionierung durch ein Clustering der kleinsten Inhalte einer Webseite durchzuführen. Dabei werden verschiedene Darstellungsformen für Webinhalte mit unterschiedlichen Clusteringverfahren kombiniert und evaluiert. Mit den aus dieser Analyse gewonnenen Erkentnissen wird ein neues auf Clustering basierendes Extraktionsverfahren entwickelt. Beide vorgestellten Ansätze liefern auf fast allen Kollektionen sehr gute Ergebnisse und können somit in vielen Applikationen, die Beschreibungen zu Webbildern benötigen, als Vorverarbeitungsschritt eingesetzt werden.Images on the Web come in hand with valuable textual content on hosting web pages that can be exploited to generate image annotations. However, web documents are usually composed of contents to multiple topics and the context of an image makes only a small portion of the full text of the web page. In order to get qualitative descriptions, methods that are able to extract the image context become essential. Existing solutions in the literature reach from simple full text extractors to intelligent approaches that perform a page segmentation as a preprocessing step. To be able to evaluate and compare the different methods, we introduce an evaluation framework that includes a ground truth dataset consisting of twelve different testing collections. The accordance between extraction output and ground truth is estimated using newly adapted evaluation measures that are a part of the framework. Most of the existing methods are based on simple heuristics and hence in general can not deal with the variety of different web page designs. Our first approach is therefore more adaptive: it arranges first the smallest content units of a web page to possible context candidates (articles) and assigns then to each image of the web page the most suitable candidate. This approach is extended by concepts that are able to handle the two-dimensional HTML-tables that are frequently used as layout elements. Another contribution is an image context extraction method that is based on page segmentation as a preprocessing step. By separating a web page into blocks of coherent topics, the images just can be associated with the complete text of the common block. In an extended analysis, we investigate different approaches to solve the page segmentation task by web content clustering. Different representations for web contents are combined with various clustering approaches and evaluated. The gained experience is used to build a novel clustering-based context extraction method. Both methods achieve very good results on almost all test collections and can thus be applied as a preprocessing step in applications that can benefit from images with descriptions. | |||||||
Lizenz: | Urheberrechtsschutz | |||||||
Fachbereich / Einrichtung: | Mathematisch- Naturwissenschaftliche Fakultät » WE Informatik » Datenbanken und Informationssysteme | |||||||
Dokument erstellt am: | 13.12.2011 | |||||||
Dateien geändert am: | 13.12.2011 | |||||||
Promotionsantrag am: | 24.10.2011 | |||||||
Datum der Promotion: | 24.11.2011 |