Dokument: Knowledge Discovery from Time Series

Titel:Knowledge Discovery from Time Series
Weiterer Titel:Wissensentdeckung aus Zeitreihen
URL für Lesezeichen:https://docserv.uni-duesseldorf.de/servlets/DocumentServlet?id=21395
URN (NBN):urn:nbn:de:hbz:061-20120509-082216-7
Kollektion:Dissertationen
Sprache:Englisch
Dokumententyp:Wissenschaftliche Abschlussarbeiten » Dissertation
Medientyp:Text
Autor: Schlüter, Tim [Autor]
Dateien:
[Dateien anzeigen]Adobe PDF
[Details]4,87 MB in einer Datei
[ZIP-Datei erzeugen]
Dateien vom 06.05.2012 / geändert 06.05.2012
Beitragende:Prof. Dr. Conrad, Stefan [Gutachter]
PD Dr. Gurski, Frank [Gutachter]
Stichwörter:Knowledge Discovery in Databases; Knowledge Discovery from Time Series; Time Series Analysis; Temporal Data Mining
Dewey Dezimal-Klassifikation:500 Naturwissenschaften und Mathematik » 510 Mathematik
Beschreibungen:Nowadays, organizations of diverse areas are collecting several kinds of data, which results in a huge bulk of data that possibly contains useful information. Since this amount of data is far too big for manual analysis, algorithms for semi-automatically discovering potential useful information within this data are developed, which is the main subject of the research area Knowledge Discovery in Databases.

Among the different kinds of data, from which knowledge can be discovered, Time Series represent an especially challenging kind, since they contain interesting temporal particularities which have to be regarded separately. Analyzing time series with respect to these temporal particularities can analogously be denoted as Knowledge Discovery from Time Series, which is the main issue of this work.

In order to provide the background for this thesis, we first introduce and provide a detailed review of knowledge discovery in databases in general and time series analysis in particular. After that, we introduce our contributions and integrate them into the area of Knowledge Discovery from Time Series.

The first two contributions concern the subarea temporal association rule mining, which aims at analyzing transactional data with temporal information (which can be regarded as complex time series) in order to find associations within this data. Here, we introduce TARGEN, a market basket dataset generator which models several temporal coherences (which is thus ideal for testing new temporal association rule mining algorithms), and a tree-based approach for mining several kinds of temporal association rules at once.

We transfer standard and temporal association rule mining techniques, which were originally designed for transactional data, to the analysis of elementary time series, and present a concrete approach for mining such standard and temporal association rules from a time series database, which for instance can be used for predicting future values of time series.

In addition to that, we present two further approaches for time series analysis and prediction, which use a Hidden Markov Model basing on inter-time-serial correlations discovered by using derivative dynamic time warping and a novel motifs-based time series representation.

Finally, we present two approaches applying time series analysis to concrete problems in linguistics and medicine, namely approaches for measuring text similarity and automatic sleep stages scoring.

In fast allen Bereichen des Lebens fallen heutzutage große Datenmengen an, die von Organisationen gesammelt werden, um darin potentiell nützliches, bisher jedoch noch unbekanntes Wissen zu finden, das man möglicherweise gewinnbringend einsetzen kann. Da die Menge an Daten zu groß für eine manuelle Analyse ist, werden Algorithmen entwickelt, die semi-automatisch versuchen sollen, potentiell nützliches Wissen aus diesen Daten zu extrahieren. Die Entwicklung dieser Algorithmen ist Hauptgegenstand des Forschungsgebiets Knowledge Discovery in Databases (zu Deutsch: Wissensentdeckung in Datenbanken). In der Vielzahl der möglichen Daten, anhand derer konkretes Wissen gewonnen werden kann, stellen Zeitreihen eine besondere Herausforderung dar, da sie interessante zeitliche Besonderheiten aufweisen, die gesondert betrachtet werden müssen. Die Analyse von Zeitreihen im Hinblick auf diese zeitlichen Besonderheiten kann analog als Knowledge Discovery from Time Series, also als Wissensentdeckung aus Zeitreihen, bezeichnet werden, was das Thema dieser Arbeit ist.

Zu Beginn behandelt diese Dissertation die erforderlichen Grundlagen aus den Bereichen Wissensentdeckung in Datenbanken im Allgemeinen und der Analyse von Zeitreihen im Speziellen. Daraufhin werden die einzelnen Beiträge dieser Arbeit vorgestellt und in das Gebiet der Wissensentdeckung aus Zeitreihen eingeordnet. Im Einzelnen zählen die ersten beiden Ansätze zum Teilbereich der zeitlichen Assoziationsanalyse, bei der transaktionale Daten mit zeitlichen Informationen (welche als komplexe Zeitreihen aufgefasst werden können) im Hinblick auf zeitliche Assoziationen untersucht werden. Die beiden konkret vorgestellten Ansätze sind TARGEN, ein Generator für Warenkorbdaten, der verschiedene zeitliche Zusammenhänge innerhalb der Daten erzeugen kann (weshalb er sich hervorragend zum Testen von neuen Algorithmen zur zeitlichen Assoziationsanalyse eignet), und ein baumbasierter Ansatz, der verschiedene Arten von zeitlichen Assoziationsregeln auf einmal entdecken kann.

Im Weiteren zeigt diese Arbeit, wie Techniken der normalen und zeitlichen Assoziationsanalyse, die ursprünglich nur für transaktionale Daten entwickelt wurden, auf normale Zeitreihen übertragen und angewendet werden können. Mit Hilfe der so gefunden normalen und zeitlichen Assoziationen kann z.B. Zeitreihenvorhersage betrieben werden. Zur Analyse und Vorhersage von Zeitreihen werden zwei weitere Ansätze vorgestellt, die beide ein Hidden Markov Model benutzen, das Zusammenhänge zwischen Zeitreihen modelliert, und Derivative Dynamic Time Warping bzw. eine neuartige Motiv-basierte Zeitreihenrepräsentation um korrelierte Zeitreihen zu finden.

Schließlich werden noch zwei Ansätze präsentiert, die Techniken der Zeitreihenanalyse anwenden, um konkrete Probleme aus den Bereichen Linguistik und Medizin zu lösen; bei dem einen Ansatz handelt es sich um das Messen von Textähnlichkeiten, bei dem anderen um automatische Schlafphasenanalyse.
Lizenz:In Copyright
Urheberrechtsschutz
Fachbereich / Einrichtung:Mathematisch- Naturwissenschaftliche Fakultät » WE Informatik » Datenbanken und Informationssysteme
Dokument erstellt am:09.05.2012
Dateien geändert am:09.05.2012
Promotionsantrag am:03.04.2012
Datum der Promotion:26.04.2012
english
Benutzer
Status: Gast
Aktionen