Dokument: Algorithmic designs for reference-based polyploid haplotype phasing
Titel: | Algorithmic designs for reference-based polyploid haplotype phasing | |||||||
URL für Lesezeichen: | https://docserv.uni-duesseldorf.de/servlets/DocumentServlet?id=68654 | |||||||
URN (NBN): | urn:nbn:de:hbz:061-20250225-085120-1 | |||||||
Kollektion: | Dissertationen | |||||||
Sprache: | Englisch | |||||||
Dokumententyp: | Wissenschaftliche Abschlussarbeiten » Dissertation | |||||||
Medientyp: | Text | |||||||
Autor: | Schrinner, Sven Dominik [Autor] | |||||||
Dateien: |
| |||||||
Beitragende: | Prof. Dr. Klau, Gunnar [Gutachter] Prof. Dr. Marschall, Tobias [Gutachter] | |||||||
Stichwörter: | computational genomics, haplotype phasing, polyploid, reference-based phasing | |||||||
Dewey Dezimal-Klassifikation: | 000 Informatik, Informationswissenschaft, allgemeine Werke » 004 Datenverarbeitung; Informatik | |||||||
Beschreibungen: | The DNA of complex organisms like animals or plants is organized in multiple chromosomes,
each carrying a part of the hereditary information. Most organisms carry more than one copy of each chromosome, which we call haplotypes. While humans are diploid and thus carry two copies, many plant species are polyploid with more copies. The process of determining the exact haplotype sequences for each chromosome is called phasing and has a wide range of applications in clinical research, genome analysis, or plant breeding. In this thesis, we propose two new algorithms for polyploid phasing: The first algorithm aims at inferring the haplotypes of a single individual for which it uses (i) short DNA sequences – called reads – that have been obtained by sequencing machines from a sample of cells and (ii) a reference genome of the target species that has to exist prior to the phasing. We give an in-depth description of our method and compare it to other state-of-the-art methods in the polyploid field. We show that our algorithm is competitive on a variety of different data and is – to our knowledge – the only one that can track uncertainty in the output. The second algorithm also requires a reference genome but uses genotype information from two parents and a large panel of offspring samples to infer the parental haplotypes. Computing long contiguous haplotypes is challenging due to the limited length of available reads. In contrast, the transmission of parental haplotypes to common offspring samples via Mendelian segregation provides more reliable long-range information on genetic variants co- occurring on the same parental haplotype. We provide a proof-of-concept for our method by showing its accuracy on a few selected regions of the potato genome for which we were able to derive a high-quality phasing from a HiFi assembly. Additionally, we describe a hybrid approach that utilizes both sequencing data and genetic information to combine the strengths of both methods and give an outlook for further research in this area. Lastly, we present a heuristic for the existing diploid phasing algorithm WHATSHAP that also combines read and genotype information from related individuals but needs to downsample the read data if it is too large. We show that our heuristic is competitive with the exact model in terms of runtime and phasing quality and can slightly outperform it on one out of two datasets when avoiding the strict downsampling.Die DNA von komplexen Organismen wie Tieren und Pflanzen ist über mehrere Chromo- some verteilt, von denen jedes einen Teil des Erbguts in sich trägt. Viele Organismen besitzen mehrere Kopien jedes Chromosoms, sogenannte Haplotypen. Während Menschen diploid sind und somit zwei Kopien besitzen, sind viele Pflanzen polyploid und besitzen mehr Kopien. Das Verfahren, um die genauen Haplotyp-Sequenzen zu bestimmen, heißt Phasing und findet bre- ite Anwendung in der klinischen Forschung, der Genomanalyse und der Pflanzenzucht. In dieser Dissertation stellen wir zwei Algorithmen für polyploides Phasing vor: Das Ziel des ersten Algorithmus ist die Berechnung der Haplotypen eines einzigen Individuums, für die wir zum einen kurze DNA-Fragmente (Reads) verwenden, die von Sequenziermaschinen aus Zellproben gewonnen werden, und zum anderen ein Referenzgenom der betrachteten Spezies, welches zuvor durch andere Methoden bestimmt werden muss. Wir beschreiben un- sere entwickelte Methode ausführlich und vergleichen sie mit anderen Referenzalgorithmen für polyploides Phasing. Wir zeigen, dass unser Algorithmus auf einer Reihe von verschiede- nen Datensätzen kompetitiv ist und zudem als – nach unserem Wissen – einzige Methode die Angabe von Unsicherheiten im Ergebnis erlaubt. Der zweite Algorithmus basiert ebenfalls auf einem Referenzgenom, aber benutzt Genotyp- Informationen von zwei Eltern und einer großen Population direkter Nachkommen anstelle von Reads, um die Haplotypen der Eltern zu bestimmen. Während es wegen der begrenzten Länge der Reads schwierig ist, lange und durchgehende Haplotypen zu berechnen, erlauben die Mendel’schen Vererbungsregeln die Identifikation von genetischen Varianten (die auf dem gleichen Eltern-Haplotypen vorkommen) auch über wesentlich größere Entfernungen. Wir zeigen, dass unsere Methode grundsätzlich akkurate Ergebnisse produzieren kann, indem wir sie für einige ausgewählte Regionen des Kartoffelgenoms mit einem Assembly aus HiFi-Reads validieren. Darüber hinaus beschreiben wir, wie beide Algorithmen zu einem hybriden Ansatz kombiniert werden, welcher die jeweiligen Stärken vereint, und erörtern Möglichkeiten für weitere Forschung in diesem Bereich. Abschließend präsentieren wir eine Heuristik für den existierenden diploiden Algorithmus WHATSHAP, der ebenfalls Reads und Genotyp-Informationen von verwandten Individuen kom- biniert, aber nur einen Teil der Read-Daten verarbeiten kann, wenn diese zu groß sind. Wir zeigen, dass die Heuristik kompetitiv bezüglich Laufzeit und Phasing-Qualität ist und den exak- ten Algorithmus in einem von zwei Datensätzen leicht übertreffen kann, wenn alle Read-Daten genutzt werden. | |||||||
Lizenz: | ![]() Dieses Werk ist lizenziert unter einer Creative Commons Namensnennung 4.0 International Lizenz | |||||||
Fachbereich / Einrichtung: | Mathematisch- Naturwissenschaftliche Fakultät » WE Informatik » Algorithmische Bioinformatik | |||||||
Dokument erstellt am: | 25.02.2025 | |||||||
Dateien geändert am: | 25.02.2025 | |||||||
Promotionsantrag am: | 25.06.2024 | |||||||
Datum der Promotion: | 10.02.2025 |