Dokument: Haplotype-resolved assembly of diploid and polyploid species and its applications

Titel:Haplotype-resolved assembly of diploid and polyploid species and its applications
URL für Lesezeichen:https://docserv.uni-duesseldorf.de/servlets/DocumentServlet?id=72458
URN (NBN):urn:nbn:de:hbz:061-20260309-084037-6
Kollektion:Dissertationen
Sprache:Deutsch
Dokumententyp:Wissenschaftliche Abschlussarbeiten » Dissertation
Medientyp:Text
Autor: Serra Mari, Rebecca [Autor]
Dateien:
[Dateien anzeigen]Adobe PDF
[Details]22,00 MB in einer Datei
[ZIP-Datei erzeugen]
Dateien vom 05.03.2026 / geändert 05.03.2026
Beitragende:Prof. Dr. Marschall, Tobias [Gutachter]
Klau, Gunnar W. [Gutachter]
Dewey Dezimal-Klassifikation:000 Informatik, Informationswissenschaft, allgemeine Werke » 004 Datenverarbeitung; Informatik
Beschreibungen:DNA, the molecular blueprint of life, is organized in the chromosomes of all eukaryotes. The DNA exists in multiple copies: humans are diploid and have two copies, other organisms such as most plants are polyploid and contain more than two genome copies. Reconstructing these exact copies, known as haplotypes, is referred to as phasing, or haplotype assembly. Modern sequencing technologies and algorithms have revolutionized genomic research by enabling highly accurate genome and haplotype assemblies, which facilitate many downstream analyses. Most progress has been made for diploids, while the field of polyploid genomics is lagging behind.

The first part of this dissertation investigates ancestral origins of genomic regions through shared haplotype blocks in high-quality phased genome assemblies. A Hidden Markov Model is presented and applied to a data set of assemblies from diverse ancestries, focusing on a Puerto Rican trio, to infer ancestry estimates.

The second part addresses a gap in polyploid phasing by introducing a novel algorithm based on read clustering and haplotype threading. It is applied to artificial polyploid datasets and the tetraploid potato genome, overcoming key challenges in polyploid phasing.

In the third part of this thesis, a method for the de novo assembly of a tetraploid potatogenome is presented. It features a graph-based approach that uses long-read sequencing and a large progeny panel. It is demonstrated that the analysis of haplotype-specific k-mers in the progeny enables haplotype-resolved chromosome-scale assembly.

Finally, the fourth part explores the potential of assembly using a three-generation pedigree. In a shared assembly graph, child haplotypes are resolved via parent-specific k-mers. This approach identifies shared sequences and meiotic recombination breakpoints, demonstrating the utility of pangenome graphs for analysing genetic inheritance across generations.

Die DNA, der molekulare Bauplan des Lebens, ist in allen Eukaryoten in Chromosomen organisiert. Die DNA liegt in mehreren Kopien vor: Der Mensch ist diploid und besitzt zwei Kopien, andere Organismen wie die meisten Pflanzen sind polyploid und enthalten mehr als zwei Kopien des Genoms. Die Rekonstruktion dieser exakten Kopien, der so genannten Haplotypen, wird auch als Phasing oder Haplotyp-Assembly bezeichnet.
Moderne Sequenziertechnologien und Algorithmen haben das Feld der Genomanalyse revolutioniert, indem sie hochpräzise Genom- und Haplotyp-Assemblies ermöglichen, die zahlreiche nachfolgende Analysen erleichtern. Die größten Fortschritte wurden bei diploiden Organismen erzielt, während die Forschung im polyploiden Bereich bislang nicht mit der Entwicklung Schritt halten konnte.

Der erste Teil dieser Arbeit untersucht den regionalen Ursprung von Genomregionen in neu rekonstruierten Haplotypen durch den Vergleich mit einer Kohorte aus verschiedenen Populationen. Es wird ein Hidden-Markov-Modell vorgestellt und auf einen Datensatz von Haplotypen von Personen verschiedener Abstammung angewendet – mit besonderem Fokus auf einem Trio aus Puerto Rico – um Schätzungen über die Abstammung anzustellen.

Der zweite Teil adressiert eine Lücke im polyploiden Phasing durch die Einführung eines neuen Algorithmus, der auf der Gruppierung von Reads und der Rekonstruktion von Haplotypen basiert. Dieser wird auf modellhafte polyploide Datensätze und das tetraploide Kartoffelgenom angewendet, wobei wesentliche Herausforderungen des polyploiden Phasings überwunden werden.

Im dritten Teil dieser Arbeit wird eine Methode zur Genomrekonstruktion eines tetraploiden Kartoffelgenoms vorgestellt. Es wird ein graphbasierter Ansatz entwickelt, der lange Reads und eine große Nachkommenpopulation verwendet. Dabei wird gezeigt, dass die Analyse der haplotyp-spezifischen k-mere in den Nachkommen eine Haplotyprekonstruktion auf Chromosomenebene ermöglicht.

Abschließend untersucht der vierte Teil das Potential des Haplotyp-Assembly anhand eines Drei-Generationen-Stammbaums. In einem gemeinsamen Assemblygraphen werden die Haplotypen des Kindes durch elternspezifische k-mere aufgelöst. Dieser Ansatz identifiziert gemeinsame Sequenzen und meiotische Rekombination und demonstriert die Verwendung von Pangenomgraphen zur Analyse der genetischen Vererbung über mehrere Generationen hinweg.
Lizenz:Creative Commons Lizenzvertrag
Dieses Werk ist lizenziert unter einer Creative Commons Namensnennung 4.0 International Lizenz
Fachbereich / Einrichtung:Medizinische Fakultät » Institute » Institut für Statistik in der Medizin
Dokument erstellt am:09.03.2026
Dateien geändert am:09.03.2026
Promotionsantrag am:18.04.2025
Datum der Promotion:16.01.2026
english
Benutzer
Status: Gast
Aktionen