Dokument: Algorithmic designs for reference-based polyploid haplotype phasing

Titel:Algorithmic designs for reference-based polyploid haplotype phasing
URL für Lesezeichen:https://docserv.uni-duesseldorf.de/servlets/DocumentServlet?id=68654
URN (NBN):urn:nbn:de:hbz:061-20250225-085120-1
Kollektion:Dissertationen
Sprache:Englisch
Dokumententyp:Wissenschaftliche Abschlussarbeiten » Dissertation
Medientyp:Text
Autor: Schrinner, Sven Dominik [Autor]
Dateien:
[Dateien anzeigen]Adobe PDF
[Details]8,77 MB in einer Datei
[ZIP-Datei erzeugen]
Dateien vom 16.02.2025 / geändert 18.02.2025
Beitragende:Prof. Dr. Klau, Gunnar [Gutachter]
Prof. Dr. Marschall, Tobias [Gutachter]
Stichwörter:computational genomics, haplotype phasing, polyploid, reference-based phasing
Dewey Dezimal-Klassifikation:000 Informatik, Informationswissenschaft, allgemeine Werke » 004 Datenverarbeitung; Informatik
Beschreibungen:The DNA of complex organisms like animals or plants is organized in multiple chromosomes,
each carrying a part of the hereditary information. Most organisms carry more than one copy
of each chromosome, which we call haplotypes. While humans are diploid and thus carry two
copies, many plant species are polyploid with more copies. The process of determining the
exact haplotype sequences for each chromosome is called phasing and has a wide range of
applications in clinical research, genome analysis, or plant breeding.
In this thesis, we propose two new algorithms for polyploid phasing: The first algorithm
aims at inferring the haplotypes of a single individual for which it uses (i) short DNA sequences
– called reads – that have been obtained by sequencing machines from a sample of cells and
(ii) a reference genome of the target species that has to exist prior to the phasing. We give
an in-depth description of our method and compare it to other state-of-the-art methods in the
polyploid field. We show that our algorithm is competitive on a variety of different data and
is – to our knowledge – the only one that can track uncertainty in the output.
The second algorithm also requires a reference genome but uses genotype information
from two parents and a large panel of offspring samples to infer the parental haplotypes.
Computing long contiguous haplotypes is challenging due to the limited length of available
reads. In contrast, the transmission of parental haplotypes to common offspring samples via
Mendelian segregation provides more reliable long-range information on genetic variants co-
occurring on the same parental haplotype. We provide a proof-of-concept for our method
by showing its accuracy on a few selected regions of the potato genome for which we were
able to derive a high-quality phasing from a HiFi assembly. Additionally, we describe a hybrid
approach that utilizes both sequencing data and genetic information to combine the strengths
of both methods and give an outlook for further research in this area.
Lastly, we present a heuristic for the existing diploid phasing algorithm WHATSHAP that also
combines read and genotype information from related individuals but needs to downsample
the read data if it is too large. We show that our heuristic is competitive with the exact model in
terms of runtime and phasing quality and can slightly outperform it on one out of two datasets
when avoiding the strict downsampling.

Die DNA von komplexen Organismen wie Tieren und Pflanzen ist über mehrere Chromo-
some verteilt, von denen jedes einen Teil des Erbguts in sich trägt. Viele Organismen besitzen
mehrere Kopien jedes Chromosoms, sogenannte Haplotypen. Während Menschen diploid sind
und somit zwei Kopien besitzen, sind viele Pflanzen polyploid und besitzen mehr Kopien. Das
Verfahren, um die genauen Haplotyp-Sequenzen zu bestimmen, heißt Phasing und findet bre-
ite Anwendung in der klinischen Forschung, der Genomanalyse und der Pflanzenzucht.
In dieser Dissertation stellen wir zwei Algorithmen für polyploides Phasing vor: Das Ziel
des ersten Algorithmus ist die Berechnung der Haplotypen eines einzigen Individuums, für
die wir zum einen kurze DNA-Fragmente (Reads) verwenden, die von Sequenziermaschinen
aus Zellproben gewonnen werden, und zum anderen ein Referenzgenom der betrachteten
Spezies, welches zuvor durch andere Methoden bestimmt werden muss. Wir beschreiben un-
sere entwickelte Methode ausführlich und vergleichen sie mit anderen Referenzalgorithmen
für polyploides Phasing. Wir zeigen, dass unser Algorithmus auf einer Reihe von verschiede-
nen Datensätzen kompetitiv ist und zudem als – nach unserem Wissen – einzige Methode die
Angabe von Unsicherheiten im Ergebnis erlaubt.
Der zweite Algorithmus basiert ebenfalls auf einem Referenzgenom, aber benutzt Genotyp-
Informationen von zwei Eltern und einer großen Population direkter Nachkommen anstelle
von Reads, um die Haplotypen der Eltern zu bestimmen. Während es wegen der begrenzten
Länge der Reads schwierig ist, lange und durchgehende Haplotypen zu berechnen, erlauben
die Mendel’schen Vererbungsregeln die Identifikation von genetischen Varianten (die auf dem
gleichen Eltern-Haplotypen vorkommen) auch über wesentlich größere Entfernungen. Wir
zeigen, dass unsere Methode grundsätzlich akkurate Ergebnisse produzieren kann, indem wir
sie für einige ausgewählte Regionen des Kartoffelgenoms mit einem Assembly aus HiFi-Reads
validieren. Darüber hinaus beschreiben wir, wie beide Algorithmen zu einem hybriden Ansatz
kombiniert werden, welcher die jeweiligen Stärken vereint, und erörtern Möglichkeiten für
weitere Forschung in diesem Bereich.
Abschließend präsentieren wir eine Heuristik für den existierenden diploiden Algorithmus
WHATSHAP, der ebenfalls Reads und Genotyp-Informationen von verwandten Individuen kom-
biniert, aber nur einen Teil der Read-Daten verarbeiten kann, wenn diese zu groß sind. Wir
zeigen, dass die Heuristik kompetitiv bezüglich Laufzeit und Phasing-Qualität ist und den exak-
ten Algorithmus in einem von zwei Datensätzen leicht übertreffen kann, wenn alle Read-Daten
genutzt werden.
Lizenz:Creative Commons Lizenzvertrag
Dieses Werk ist lizenziert unter einer Creative Commons Namensnennung 4.0 International Lizenz
Fachbereich / Einrichtung:Mathematisch- Naturwissenschaftliche Fakultät » WE Informatik » Algorithmische Bioinformatik
Dokument erstellt am:25.02.2025
Dateien geändert am:25.02.2025
Promotionsantrag am:25.06.2024
Datum der Promotion:10.02.2025
english
Benutzer
Status: Gast
Aktionen