Dokument: Pattern Discovery in Time Series

Titel:

Pattern Discovery in Time Series

URL für Lesezeichen:

https://docserv.uni-duesseldorf.de/servlets/DocumentServlet?id=57655

URN (NBN):

urn:nbn:de:hbz:061-20211007-111624-7

Kollektion:

Dissertationen

Sprache:

Englisch

Dokumententyp:

Wissenschaftliche Abschlussarbeiten » Dissertation

Medientyp:

Text

Autor:

Klassen, Gerhard [Autor]

Dateien:

[Dateien anzeigen]	Adobe PDF
[Details]	45,33 MB in einer Datei
[ZIP-Datei erzeugen]
Dateien vom 06.10.2021 / geändert 06.10.2021

Beitragende:

Prof. Dr. Conrad, Stefan [Gutachter]
Prof. Dr. Dietze, Stefan [Gutachter]

Dewey Dezimal-Klassifikation:

000 Informatik, Informationswissenschaft, allgemeine Werke » 004 Datenverarbeitung; Informatik

Beschreibungen:

Abstract

The identification of groups in data sets, also called cluster analysis or clustering, is an important part of many analyses. Several algorithms from different research areas have already been developed for this purpose. These methods differ not only in their algorithmic procedure but also in the use of different comparison functions. In addition, many methods require the selection of one or more parameters, so that the results depend not only on the chosen method but also on the parameters selected. The question of the validity of the clusters found can only be answered, if at all, by experts in the relevant data domain. This problem affects all forms of data and can severely limit the usefulness of such an analysis. Some types of data contain additional dependencies that can be usedadvantageously in such a cluster analysis. Time series, i.e. ordered sequences of observations, represent such a class of data. In many respects they determine our everyday life, whether on stock markets, in medicine or during the Corona pandemic in form of the
course of infections. If the temporal component is properly taken into account, a cluster analysis can provide previously unknown information. However, the validity of the found clusters must first be ensured in order to prevent misinterpretations.
The explained problem is the motivation for CLOSE, a new method presented here, which is able to evaluate a clustering of time series. The developed evaluation is based on a novel stability measure for time series and clusters and provides a score, which makes different clusterings comparable. The circumstance that it is not only crisp clustering which is affected by the described problem, but also fuzzy clustering, led us to another method, called FCSETS, which is specialised on fuzzy clusterings. We evaluate these methods using several data sets and clustering algorithms. We also present three applications and several variants which target the detection of outliers in time series. These applications are based on the findings in FCSETS and CLOSE. Additionally we present a clustering algorithm, which is based on a derived concept of CLOSE. In an excursion chapter, we show the results of other machine learning techniques so that a comparison can be made with our applications. Our results are promising and enable users to choose a suitable clustering algorithm and the corresponding parameters without prior knowledge.

---------------------------------------------------------------------

Zusammenfassung

Die Identifikation von Gruppen in Datensätzen, auch Clusteranalyse oder Clusteringgenannt, ist ein wichtiger Bestandteil vieler Analysen. Hierfür wurden bereits mehrereAlgorithmen aus verschiedenen Forschungsbereichen entwickelt. Diese Methoden un-terscheiden sich nicht nur in ihrem algorithmischen Vorgehen, sondern auch in derVerwendung unterschiedlicher Vergleichsfunktionen. Darüber hinaus erfordern vieleMethoden die Wahl eines oder mehrerer Parameter, so dass die Ergebnisse nicht nurvon der gewählten Methode, sondern auch von den gewählten Parametern abhängen.Die Frage nach der Gültigkeit der gefundenen Cluster kann, wenn überhaupt, nur vonExperten in der jeweiligen Datendomäne beantwortet werden. Dieses Problem be-trifft alle Formen von Daten und kann die Nützlichkeit einer solchen Analyse starkeinschränken.Einige Arten von Daten enthalten zusätzliche Abhängigkeiten, die in einer solchenClusteranalyse vorteilhaft genutzt werden können. Zeitreihen, d.h. geordnete Folgenvon Beobachtungen, stellen eine solche Klasse von Daten dar. Sie bestimmen in vielerleiHinsicht unseren Alltag, ob an der Börse, in der Medizin oder während der Corona-Pandemie in Form von Infektionsverläufen. Wenn die zeitliche Komponente richtigberücksichtigt wird, kann eine Clusteranalyse viele bisher unbekannte Informationenliefern. Allerdings muss zunächst die Gültigkeit der gefundenen Cluster sichergestelltwerden, um Fehlinterpretationen zu vermeiden.Die erläuterte Problematik ist die Motivation für CLOSE, eine hier vorgestellteneue Methode, die in der Lage ist, ein Clustering von Zeitreihen zu bewerten. Dieentwickelte Auswertung basiert auf einem neuartigen Stabilitätsmaß für Zeitreihen undCluster und liefert einen Score, der verschiedene Clusterings vergleichbar macht. DerUmstand, dass nicht nurhartesClustering von dem beschriebenen Problem betroffenist, sondern auchfuzzyClustering, führte uns zu FCSETS, einer weiteren Methode,die auffuzzyClustings spezialisiert ist.Wir evaluieren diese Methoden anhand verschiedener Datensätze und Clustering-Algorithmen. Wir stellen außerdem drei Anwendungen und mehrere Varianten vor,die auf die Erkennung von Ausreißern in Zeitreihen abzielen. Diese Anwendungenbasieren auf den Erkenntnissen in FCSETS und CLOSE. Zusätzlich stellen wir einenClustering-Algorithmus vor, der auf einem abgeleiteten Konzept von CLOSE basiert.In einem Exkurs zeigen wir die Ergebnisse anderer maschineller Lernverfahren auf,so dass ein Vergleich mit unseren Anwendungen möglich ist. Unsere Ergebnisse sindvielversprechend und ermöglichen es Anwendern ohne Vorkenntnisse einen geeignetenClustering-Algorithmus und die entsprechenden Parameter auszuwählen.

Lizenz:

Urheberrechtsschutz

Fachbereich / Einrichtung:

Mathematisch- Naturwissenschaftliche Fakultät » WE Informatik

Dokument erstellt am:

07.10.2021

Dateien geändert am:

07.10.2021

Promotionsantrag am:

11.05.2021

Datum der Promotion:

30.09.2021

Heinrich-Heine-Universität Düsseldorf

Dokument: Pattern Discovery in Time Series