Dokument: Metadaten-Verwaltung in einem verteilten RAM-basierten Speicherdienst

Titel:Metadaten-Verwaltung in einem verteilten RAM-basierten Speicherdienst
Weiterer Titel:Metadata-Management in a distributed In-Memory Storage
URL für Lesezeichen:https://docserv.uni-duesseldorf.de/servlets/DocumentServlet?id=36464
URN (NBN):urn:nbn:de:hbz:061-20151202-144245-2
Kollektion:Dissertationen
Sprache:Deutsch
Dokumententyp:Wissenschaftliche Abschlussarbeiten » Dissertation
Medientyp:Text
Autor: Klein, Florian [Autor]
Dateien:
[Dateien anzeigen]Adobe PDF
[Details]7,45 MB in einer Datei
[ZIP-Datei erzeugen]
Dateien vom 01.12.2015 / geändert 01.12.2015
Beitragende:Prof. Dr. Schöttner, Michael [Gutachter]
Prof. Dr. Mauve, Martin [Gutachter]
Dewey Dezimal-Klassifikation:000 Informatik, Informationswissenschaft, allgemeine Werke » 004 Datenverarbeitung; Informatik
Beschreibungen:Große interaktive Web-Anwendungen und Echtzeit-Graphverarbeitung erfordern schnelle Datenzugriffszeiten auf Milliarden kleiner Objekte und stoßen damit an die Grenzen klassischer festplatten-basierter Speichersysteme. Auf Grund der häufig unregelmäßigen Zugriffsmuster werden große Teile der Daten in RAM-basierten Caches gehalten, die manuell mit dem Hintergrundspeicher synchronisiert werden müssen. Auch das Neubefüllen solcher Caches, zum Beispiel bei einem Stromausfall, ist sehr zeitaufwendig und damit kostspielig. DXRAM begegnet diesen Problemen, indem alle Anwendungsdaten permanent im Hauptspeicher vieler vernetzter Knoten eines Rechenzentrums gehalten werden. Die Verwaltung Milliarden kleiner Datenobjekte (16-64 Byte) bei gleichzeitiger Gewährleistung von Persistenz und Fehlertoleranz sind dabei die Hauptziele. Persistenz und Fehlertoleranz werden mit Hilfe einer für SSD zugeschnittenen transparenten Hintergrundprotokollierung sichergestellt, die eine schnelle Datenwiederherstellung ausgefallener Knoten ermöglicht. Obwohl Daten- und Metadaten-Verwaltung ausführlich erforscht sind, stellen die große Anzahl sehr kleiner Objekte neue Herausforderungen dar. Der Einsatz von Supercomputern kann die Probleme zwar abmildern, ist jedoch auch sehr kostenintensiv und daher der Einsatz herkömmlicher PCs zu bevorzugen.
In dieser Arbeit wird ein neues integriertes Konzept von lokaler und globaler Metadaten-Verwaltung vorgestellt, das einen schnellen Datenzugriff und einen hohen Durchsatz erlaubt und gleichzeitig sehr speichereffizient ist. Die lokale Metadaten-Verwaltung umfasst ein effizientes paging-ähnliches Schema für die Übersetzung von globalen IDs zu virtuellen Speicheradressen und eine Speicherverwaltung optimiert für viele kleine Objekte. Dabei erlaubt es ein speziell entwickelter Speicherallokator den Speicherverbrauch für Metadaten auf zwei Byte pro Objekt zu senken, so dass über eine Milliarde Objekte pro Knoten (bei 32 GB RAM pro Knoten) gespeichert werden können. Um sich ändernde Allokationsmuster zu unterstützen, wird ein effizienter inkrementeller Defragmentierungsalgorithmus eingesetzt, der im Hintergrund oder bei Bedarf parallel zum Gesamtsystem arbeitet.
Unter Verwendung eines Super-Peer-Overlays wird eine auf Bereichen basierte globale Metadaten-Verwaltung vorgestellt, die eine schnelle Objektsuche ermöglicht und gleichzeitig sehr speichereffizient ist, indem Objekt-IDs zu ID-Bereichen zusammengefasst werden. Die Super-Peers verwalten diese ID-Bereiche zusammen mit Backupknoten-Informationen und ermöglichen damit eine parallele und schnelle Wiederherstellung von Metadaten und Daten eines ausgefallenen Knotens. Zudem lässt sich das gleiche Konzept auch für ein Caching von Metadaten nutzen. Der gewählte Peer-to-Peer-Ansatz ermöglicht es, dass das Speichersystem als eigenständiger Backend-Speicher genutzt oder Anwendungscode direkt auf den Speicherknoten ausgeführt werden kann.
Sowohl die lokale als auch die globale Metadaten-Verwaltung wurden erfolgreich evaluiert und mit modernen Ansätzen und Systemen neuester Technik verglichen. Die präsentierten Messergebnisse zeigen einen hohen Durchsatz und eine sehr effiziente Speicherausnutzung, die besser als die herkömmlicher Systeme sind.

Traditional disk-based storage solutions face problems with fast data access to billions of small data objects, as needed by large-scale interactive web applications and online graph processing. Because of the often irregular access patterns they must keep almost all data in RAM caches, which need to be manually synchronized with secondary storage and need a lot of time to be re-loaded in case of power outages. DXRAM addresses this challenge by keeping all data always in RAM of potentially many nodes aggregated in a data center. The main aims of DXRAM are support of billions of small data objects (16-64 byte) and providing persistence by a novel SSD-aware logging approach allowing to recover failed nodes very fast. Although data and meta-data management are widely researched the sheer amount of very small objects rises new problems. The use of supercomputers can lessen the problems, but is very cost-intensiv. Therefore the use of traditional PCs is preferred.
This thesis presents a novel integrated approach of local and global meta-data management allowing a fast data access and high throughput while being very space-efficient. The local meta-data management includes an efficient paging-like translation scheme for global IDs to virtual memory addresses and a memory management optimized for many small data objects. A novel memory allocator allows to reduce the meta-data for allocations down to two bytes per object, allowing to store over one billion objects per node (with 32 GB of memory per node). Changing data granularities is supported by an efficient incremental defragmentation which can run in the background or as needed parallel to the overall system.
A super-peer-overlay is used for a range-based meta-data management allowing fast node lookups while being space-efficient by combining object IDs in ranges. The super-peers manage these ranges together with backup-node information to support parallel and fast recovery of meta data and data of failed peers. Furthermore, the same concept can also be used for caching. The choosen peer-to-peer approach allows to use the storage system as self-contained backend storage or to run application code on the storage nodes.
Both local and global meta-data management have been successfully evaluated and compared with state-of-the-art approaches and systems and the results show the high throughput and the very efficient memory usage, which are better than traditional systems.
Lizenz:In Copyright
Urheberrechtsschutz
Fachbereich / Einrichtung:Mathematisch- Naturwissenschaftliche Fakultät » WE Informatik » Betriebssysteme
Dokument erstellt am:02.12.2015
Dateien geändert am:02.12.2015
Promotionsantrag am:25.09.2015
Datum der Promotion:16.11.2015
english
Benutzer
Status: Gast
Aktionen