Dokument: On Outlier Detection in Sequences - Finding Anomalies in Mountain Silhouettes

Titel:On Outlier Detection in Sequences - Finding Anomalies in Mountain Silhouettes
URL für Lesezeichen:https://docserv.uni-duesseldorf.de/servlets/DocumentServlet?id=51777
URN (NBN):urn:nbn:de:hbz:061-20200312-092258-0
Kollektion:Dissertationen
Sprache:Englisch
Dokumententyp:Wissenschaftliche Abschlussarbeiten » Dissertation
Medientyp:Text
Autor: Singhof, Michael [Autor]
Dateien:
[Dateien anzeigen]Adobe PDF
[Details]106,18 MB in einer Datei
[ZIP-Datei erzeugen]
Dateien vom 11.12.2019 / geändert 11.12.2019
Beitragende:Prof. Dr. Conrad, Stefan [Gutachter]
Prof. Dr. Schöttner, Michael [Gutachter]
Dewey Dezimal-Klassifikation:000 Informatik, Informationswissenschaft, allgemeine Werke » 004 Datenverarbeitung; Informatik
Beschreibungen:Durch das Aufkommen von sozialen Netzwerken wie Facebook und Instagram und Plattformen, auf denen Fotos im Internet geteilt werden können, wie Flickr und 500px, wird der Öffentlichkeit eine große Anzahl an Fotos zur Verfügung gestellt. Während diese Fotos häufig mit passenden, kurzen Stichwörtern, sogenannten Tags, versehen werden, gibt es auch eine große Anzahl von Bildern, bei denen dies nicht der Fall ist. Diese unmarkierten Fotos lassen sich besonders schwierig suchen, da die meisten internetbasierten Suchen anhand von textuellen Beschreibungen durchgeführt werden. Ein weiteres Problem, das im Zusammenhang mit dem Tagging auftritt, ist mangelndes Wissen des Fotografen über den Inhalt des Fotos. So könnte beispielsweise ein Foto, das den Gran Paradiso zeigt, nur mit den Schlagworten "`Berg"', "`Schnee"' und "`Italien"' gekennzeichnet sein. Sucht nun ein Benutzer speziell nach Fotos, die den Gran Paradiso zeigen, würde dieses Foto nicht unter den Ergebnissen auftauchen. Ähnliche Beispiele lassen sich auch in vielen anderen Anwendungen, wie etwa bei Sehenswürdigkeiten oder Fotos von Blumen, finden.

Eine Lösung für die oben genannten Probleme besteht darin, die Schlagworte automatisch zu erzeugen. Für die automatische Identifikation von Bergen ist es aufgrund der hohen Anzahl von Bergen nötig, eine sehr präzise Silhouette aus Bergfotos zu extrahieren. Mithilfe einer solchen Silhouette ist es dann möglich, den Berg auf einem Foto durch vergleiche zu einer bekannten Referenzdatenbank zu identifizieren. Diese Arbeit stellt daher ein solches Verfahren vor. Grundsätzlich handelt es sich bei diesem Vorgehen um ein Segmentierungsverfahren, das große Ähnlichkeiten zu Verfahren zum Entdecken des Himmels auf Fotos hat. Die Extraktion der Form eines Berges aus einem Foto ist allerdings schwieriger als die Himmelserkennung, da Teile des Berges durch Hindernisse wie Menschen oder Gebäude verdeckt sein können. Zusätzlich sind die Textur und farbliche Eigenschaften von Bergen in vielen Fällen weniger homogen als beim Himmel.

Diese Arbeit konzentriert sich auf die Einführung eines Modells zur Erkennung von Ausreißern, mit dem es möglich ist, Unregelmäßigkeiten in Silhouetten, die von einem Segmentierungsalgorithmus berechnet werden, zu erkennen. Im Laufe der Arbeit werden ein grundlegender Referenzalgorithmus sowie zwei Verbesserungen vorgestellt. Hierbei ermöglicht die zweite Verbesserung eine Klassifizierung der erkannten Ausreißer, wodurch unterschiedliche Strategien für die Entfernung angewendet werden können. Weiterhin wird ein Ansatz für die Erkennung von Ausreißern mittels künstlicher neuronaler Netze vorgestellt.

In der abschließenden Auswertung wird gezeigt, dass die in der Arbeit eingeführten Verfahren ein F_1 Maß von 0.83 bei der Erkennung von Ausreißern erreichen. Außerdem werden mehr als 92% der erkannten Ausreißer der richtigen Klasse zugeordnet.

The advent and rise of social networks such as Facebook and Instagram and image sharing platforms like Flickr and 500px lead to a huge number of photos publicly shared over the internet. While many of the people that share their photos add appropriate and detailed tags, short keywords that describe the image, many others do not. Those photos without tags are much more difficult to search for than other ones. Another problem arises if the knowledge of the photographer is limited. In these cases, a photo showing the Gran Paradiso could just be tagged with words like ``mountain'', ``snow'', ``Italy'', but for someone who searches for a specific photo of that mountain, those tags are not of much use. Similar examples can of course be found for many other landmarks like skyscrapers in New York City or for more precise knowledge like photos of flowers, when flowers of a certain type are searched for.

The automatic generation of tags is a way to solve these problems. For example of the identification of mountains, this thesis presents an approach to extracting an exact silhouette of the mountain the photo. This is needed to later identify the mountain by a comparison of the silhouettes. As the number of mountains on earth is very large, albeit hard to define, extracting a very precise silhouette is important. This extraction step is in essence a segmentation process, that is similar with sky detection problems. However, identifying the mountain is more difficult than the identification of the sky, as obstacles in front of the mountain can occur and thus conceal parts of it. Also, in many cases, a mountain is much less homogeneous in terms of texture and features than the sky.

In order to overcome those difficulties, this thesis emphasises on an outlier detection framework that is able to detect irregularities in silhouettes computed by a segmentation algorithm. We therefore introduce a baseline outlier detection algorithm and two improvements to it, as well as an approach to silhouette outlier detection by artificial neural networks. Additionally, by the second improvement to the base algorithm, we present a way to classify the detected outliers in order to be able to utilise different correction strategies for different kinds of outliers.

Our evaluation shows that both improvements mentioned before do indeed enhance the quality of the outlier detection, up to an F_1 score of 0.83 for the correct detection of outliers. Of the detected outliers, more than 92% are then correctly classified in regard to the kind of detected outlier.
Lizenz:In Copyright
Urheberrechtsschutz
Fachbereich / Einrichtung:Mathematisch- Naturwissenschaftliche Fakultät » WE Informatik » Datenbanken und Informationssysteme
Dokument erstellt am:12.03.2020
Dateien geändert am:12.03.2020
Promotionsantrag am:01.03.2019
Datum der Promotion:14.05.2019
english
Benutzer
Status: Gast
Aktionen