Dokument: Automatic subspace clustering for high-dimensional data

Titel:Automatic subspace clustering for high-dimensional data
URL für Lesezeichen:https://docserv.uni-duesseldorf.de/servlets/DocumentServlet?id=28311
URN (NBN):urn:nbn:de:hbz:061-20140225-111445-6
Kollektion:Dissertationen
Sprache:Englisch
Dokumententyp:Wissenschaftliche Abschlussarbeiten » Dissertation
Medientyp:Text
Autor: Zhao, Jiwu [Autor]
Dateien:
[Dateien anzeigen]Adobe PDF
[Details]4,49 MB in einer Datei
[ZIP-Datei erzeugen]
Dateien vom 06.02.2014 / geändert 06.02.2014
Stichwörter:subspace clustering, high-dimension, density, gravitation, entropy
Dewey Dezimal-Klassifikation:000 Informatik, Informationswissenschaft, allgemeine Werke » 004 Datenverarbeitung; Informatik
Beschreibungen:Clustering is an important task of data mining. The purpose of clustering is discovering and grouping similar objects in a data set with the principle that objects in the same group (cluster) are similar. Meanwhile, the ones from different clusters are dissimilar. The traditional clustering approaches are designed for searching clusters in the entire space. However, in high-dimensional real world data sets, there are usually many irrelevant dimensions for clustering, where the traditional clustering methods work often improperly. Subspace clustering is an extension of traditional clustering that enables finding subspace clusters only in relevant dimensions within a data set. However, most subspace clustering methods usually suffer from the issue that their complicated parameter settings are almost troublesome to be determined, and therefore it can be difficult to implement these methods in practical applications.

In this dissertation, we introduce two novel subspace clustering methods SUGRA (Subspace Clustering with the Gravitation Function) and ASCDD (Automatic Subspace Clustering with the Distance -Density Function). The first algorithm SUGRA takes a gravitation function to calculate the densities of objects. It searches clusters from low- to high-dimensional subspaces. The second algorithm ASCDD uses another density function and computes the density distribution directly in high-dimensional subspaces. The relevant subspaces are explored by comparing their entropy values. The clusters in ASCDD are searched with the technique of neighborhood expansion.

Both of the subspace clustering methods are designed with the principle of uncomplicated parameter setting and easy applicability. For example, SUGRA can separate non-cluster objects by one threshold that is close to a constant. ASCDD requires only one simply determinable parameter in the step of the neighborhood expansion.

Finally, we compare SUGRA and ASCDD with other subspace clustering methods in different empirical experiments with various aspects. The results show that the two proposed subspace clustering methods are accurate and easy applicable on different types of data sets.

Clustering ist eine wichtige Aufgabe von Data-Mining. Der Zweck von Clustering ist die Entdeckung und Gruppierung ähnlicher Objekte in einem Datensatz mit dem Prinzip, dass die Objekte einer Gruppe (eines Clusters) einander ähnlich sind und diejenigen aus verschiedenen Clustern unähnlich sind. Die traditionellen Clusteringverfahren sind konzipiert für die Suche nach Clustern in dem gesamten Raum. Dennoch gibt es häufig viele irrelevante Dimensionen bezüglich des Clusterings in einem hochdimensionalen Datensatz der realen Welt, wo die traditionellen Clusteringverfahren oft ungeeignet sind. Das Subspace Clustering ist eine Erweiterung des traditionellen Clusterings. Dabei ermöglicht es die Suche nach Subspace-Clustern nur in den relevanten Unterräumen eines Datensatzes. Allerdings haben die meisten Subspace-Clustering-Algorithmen das Problem, dass sich ihre komplizierten Parametereinstellungen ziemlich schwer ermitteln lassen. Daher ist die Anwendung dieser Methoden in der Praxis problematisch.

In dieser Dissertation stellen wir zwei neue Subspace-Clustering-Methoden SUGRA (Subspace Clustering with the Gravitation Function) and ASCDD (Automatic Subspace Clustering with the Distance -Density Function) vor. Der erste Algorithmus SUGRA benutzt eine Gravitationsfunktion, um die Dichte von Objekten zu berechnen. Er sucht Cluster in niedrig- bis hochdimensionalen Unterräumen. Der zweite Algorithmus ASCDD verwendet eine andere Dichtefunktion und berechnet die Dichteverteilung direkt in hochdimensionalen Unterräumen. Die relevanten Unterräume werden durch den Vergleich ihrer Entropiewerte entdeckt. Die Cluster in ASCDD werden mit der Technik der Nachbarschaftserweiterung gesucht.

Beide Subspace-Clustering-Methoden werden nach dem Prinzip einer unkomplizierten Parametereinstellung und einfacher Anwendbarkeit entwickelt. Beispielsweise trennt SUGRA Nichtclusterobjekte mit einem Schwellenwert, der in der Nähe von einer Konstante ist. ASCDD erfordert nur einen einfach bestimmbaren Parameter in dem Schritt der Nachbarschaftserweiterung.

Schließlich vergleichen wir SUGRA und ASCDD mit anderen Subspace-Clustering-Methoden in diversen empirischen Experimenten hinsichtlich unterschiedlicher Aspekte. Die Ergebnisse zeigen, dass die beiden vorgeschlagenen Subspace-Clustering-Verfahren präzise und auf verschiedene Typen von Datensätzen leicht anwendbar sind.
Lizenz:In Copyright
Urheberrechtsschutz
Fachbereich / Einrichtung:Mathematisch- Naturwissenschaftliche Fakultät » WE Informatik » Datenbanken und Informationssysteme
Dokument erstellt am:25.02.2014
Dateien geändert am:25.02.2014
Promotionsantrag am:22.10.2013
Datum der Promotion:02.12.2013
english
Benutzer
Status: Gast
Aktionen