Dokument: Web Image Context Extraction: Methoden und Evaluation

Titel:Web Image Context Extraction: Methoden und Evaluation
Weiterer Titel:Web Image Contaxt Extraction: Methods and Evaluation
URL für Lesezeichen:https://docserv.uni-duesseldorf.de/servlets/DocumentServlet?id=20043
URN (NBN):urn:nbn:de:hbz:061-20111213-084434-9
Kollektion:Dissertationen
Sprache:Englisch
Dokumententyp:Wissenschaftliche Abschlussarbeiten » Dissertation
Medientyp:Text
Autor:Dr. Alcic, Sadet [Autor]
Dateien:
[Dateien anzeigen]Adobe PDF
[Details]5,48 MB in einer Datei
[ZIP-Datei erzeugen]
Dateien vom 10.12.2011 / geändert 10.12.2011
Beitragende:Prof. Dr. Conrad, Stefan [Betreuer/Doktorvater]
Prof. Dr. Schöttner, Michael [Gutachter]
Stichwörter:Web Data Mining, Web Image Context, Web Search
Dewey Dezimal-Klassifikation:000 Informatik, Informationswissenschaft, allgemeine Werke » 004 Datenverarbeitung; Informatik
Beschreibungen:Digitale Bilder im Web treten in Webseiten gemeinsam mit wertvollen Texten auf, die zur Generierung von Bildbeschreibungen genutzt werden können. Leider besteht eine Webseite in der Regel aus mehreren Inhalten zu unterschiedlichen Themen, und der Kontext eines einzigen Bildes stellt nur einen Bruchteil des Gesamtinhalts der Webseite dar. Um dennoch qualitative Beschreibungen zu erhalten, ist es notwendig Methoden zu entwickeln, mit denen der Kontext eines Bildes aus einer Webseite extrahiert werden kann.

Bestehende Lösungen aus der Literatur reichen von einfachen Extraktoren, die den gesamten Text einer Webseite übernehmen, bishin zu intelligenteren Methoden, die als Vorverarbeitungsschritt eine Einteilung der Webseite in einzelne Bereiche vornehmen. Um die Qualität der einzelnen Verfahren ermitteln und vergleichen zu können, wurde im Rahmen dieser Arbeit ein Evaluationsframework entwickelt,
das eine eigens erzeugte Testdatenmenge (Gold Standard) bestehend aus zwölf Kollektionen umfasst. Zur Bestimmung der Übereinstimmung zwischen der Ausgabe der Extraktionsverfahren
und dem Gold Standard wurden geeignete Evaluationsmaße entwickelt und in das Framework integriert.

Die meisten existierenden Extraktionsverfahren basieren auf einfache Heuristiken und können daher im Allgemeinen nicht mit der Vielfalt an unterschiedlichen Webseitendesigns umgehen. Unser erster Ansatz fasst deshalb zunächst unabhängig vom Design der Webseite die einzelnen Textinhalte zu möglichen Kontextkandidaten (Artikeln) zusammen und weist dann einem Bild den geeignetsten Kandidaten zu. Dieser Ansatz hat Schwierigkeiten, wenn Tabellen als Layoutelemente verwendet werden und deshalb wird um Konzepte erweitert, welche auch mit HTML-Tabellen umgehen können.

Ein weiterer Ansatz basiert auf der Webseitenpartitionierung als Vorverarbeitungsschritt. Ist eine Webseite erstmal in ihre Teilbereiche unterteilt, kann ein Bild mit dem in seinem Bereich enthaltenen Text assoziiert werden. Wir untersuchen ausführlich mehrere Möglichkeiten, die Webseitenpartitionierung durch ein Clustering der kleinsten Inhalte einer Webseite durchzuführen. Dabei werden verschiedene Darstellungsformen für Webinhalte mit unterschiedlichen Clusteringverfahren kombiniert und evaluiert. Mit den aus dieser Analyse gewonnenen Erkentnissen wird ein neues auf Clustering basierendes Extraktionsverfahren entwickelt.

Beide vorgestellten Ansätze liefern auf fast allen Kollektionen sehr gute Ergebnisse und können somit in vielen Applikationen, die Beschreibungen zu Webbildern benötigen, als Vorverarbeitungsschritt eingesetzt werden.

Images on the Web come in hand with valuable textual content on
hosting web pages that can be exploited to generate image annotations. However, web documents are usually composed of contents to multiple topics and the context of an image makes only a small portion of the full text of the web page. In order to get qualitative descriptions, methods that are able to extract the image context become essential.

Existing solutions in the literature reach from simple full text extractors to intelligent approaches that perform a page segmentation as a preprocessing step. To be able to evaluate and compare the different methods, we introduce an evaluation framework that includes a ground truth dataset consisting of twelve different testing collections. The accordance between extraction output and ground truth is estimated using newly adapted evaluation measures that are a part of the framework.

Most of the existing methods are based on simple heuristics and hence in general can not deal with the variety of different web page designs. Our first approach is therefore more adaptive: it arranges first the smallest content units of a web page to possible context candidates (articles) and assigns then to each image of the web page the most suitable candidate. This approach is extended by concepts
that are able to handle the two-dimensional HTML-tables that are frequently used as layout elements.

Another contribution is an image context extraction method that is based on page segmentation as a preprocessing step. By separating a web page into blocks of coherent topics, the images just can be associated with the complete text of the common block. In an extended analysis, we investigate different approaches to solve the page segmentation task by web content clustering. Different representations for web contents are combined with various clustering approaches and evaluated. The gained experience is used to build a novel clustering-based context extraction method.

Both methods achieve very good results on almost all test collections
and can thus be applied as a preprocessing step in applications that
can benefit from images with descriptions.
Fachbereich / Einrichtung:Mathematisch- Naturwissenschaftliche Fakultät » WE Informatik » Datenbanken und Informationssysteme
Dokument erstellt am:13.12.2011
Dateien geändert am:13.12.2011
Promotionsantrag am:24.10.2011
Datum der Promotion:24.11.2011
english
Benutzer
Status: Gast
Aktionen