Dokument: Design and application of methods for genome inference
Titel: | Design and application of methods for genome inference | |||||||
URL für Lesezeichen: | https://docserv.uni-duesseldorf.de/servlets/DocumentServlet?id=62976 | |||||||
URN (NBN): | urn:nbn:de:hbz:061-20230704-112839-2 | |||||||
Kollektion: | Dissertationen | |||||||
Sprache: | Englisch | |||||||
Dokumententyp: | Wissenschaftliche Abschlussarbeiten » Dissertation | |||||||
Medientyp: | Text | |||||||
Autor: | Ebler, Jana [Autor] | |||||||
Dateien: |
| |||||||
Beitragende: | Prof. Dr. Marschall, Tobias [Gutachter] Gunnar Klau [Gutachter] | |||||||
Dewey Dezimal-Klassifikation: | 000 Informatik, Informationswissenschaft, allgemeine Werke » 004 Datenverarbeitung; Informatik | |||||||
Beschreibungen: | Humans are diploid and carry two copies of their DNA, packaged into chromosomes. Other species, including many plants, are polyploid and carry more than two copies of each chromosome. Phasing describes the process of inferring the exact sequences of these chromosomal copies, called haplotypes, based on sequencing data. While tools for accurately phasing diploid genomes exist already, phasing polyploids is still challenging.
In the first part of this thesis, a new algorithm for polyploid phasing is introduced and applied to sequencing data of a tetraploid potato genome. Next, it is demonstrated how the new PacBio Circular Consensus Sequencing (CCS) technology simplifies alignment-based phasing by providing accurate long reads that enable variant calling and phasing based on a single sequencing technology, removing the necessity of an additional short-read dataset. In addition, CCS reads enable reference-free de novo assembly of individual haplotypes on the scale of chromosomes that include structural variation typically missed by alignment-based phasing methods. Such haplotype sequences enable the construction of pangenome graphs that provide a representation of the genetic diversity of the contained samples. In the second part of this thesis, a new genotyping method, PanGenie, is presented, which leverages a pangenome graph in order to infer genotypes of genetic variants from short-read sequencing data, without requiring time consuming read alignments. It improves genotyping accuracy of structural variants over traditional alignment-based short-read genotyping methods, which often perform worse due to poor reference alignments in these regions. The third part of this thesis describes several applications of PanGenie. It presents results of structural variant genotyping across a large cohort of human samples based on pangenome representations generated by the HGSVC and HPRC consortia. Results show that PanGenie is able to genotype structural variants previously inaccessible by other short-read based methods, enabling the inclusion of such variants into Quantitative trait locus (QTL) analyses. Furthermore, it is demonstrated how SNP genotypes produced by PanGenie across the cohort samples can be used to detect carriers of rare inversions.Der Mensch ist diploid und trägt daher zwei Kopien seiner DNA, die in Chromosomen verpackt sind. Andere Arten, darunter viele Pflanzen, sind polyploid und tragen mehr als zwei Kopien jedes Chromosoms. Haplotypisierung beschreibt die Rekonstruktion der Sequenzen dieser Kopien, die sogenannten Haplotypen, auf der Grundlage von Sequenzierdaten. Während bereits einige Methoden zur Haplotypisierung diploider Genome existieren, ist die Haplotypisierung von polyploiden Organismen immer noch eine Herausforderung. Im ersten Teil dieser Arbeit wird ein neuer Algorithmus zur Haplotypisierung von polyploiden Genomen vorgestellt und auf Sequenzierdaten eines tetraploiden Kartoffelgenoms angewendet. Anschließend wird gezeigt, dass die neue Circular Consensus Sequenziermethode (CCS) von PacBio die Alignment-basierte Haplotypisierung vereinfacht, da sie lange Reads mit geringen Fehlerraten liefert, die sowohl zur Detektion von Varianten als auch zur eigentlichen Haplotypisierung verwendet werden können. Dadurch ist kein zusätzlicher Datensatz mit kurzen Reads mehr notwendig. Darüber hinaus ermöglichen CCS-Reads die referenzfreie de novo Assemblierung individueller Haplotypen ganzer Chromosomen. Solche Haplotypsequenzen schließen neben kurzen Varianten auch strukturelle Varianten ein, die von Alignment-basierten Methoden meist nicht miteinbezogen werden. Somit ermöglichen sie die Konstruktion von Pangenom-Graphen, die eine detaillierte Beschreibung der genetischen Variabilität einer Art darstellen. Im zweiten Teil dieser Arbeit wird eine neue Genotypisierungsmethode namens PanGenie vorgestellt, die einen Pangenom-Graphen nutzt, um Genotypen genetischer Varianten aus kurzen Sequenzierreads abzuleiten, ohne dass zeitaufwändige Read-Alignments berechnet werden müssen. PanGenie liefert genauere Genotypen für strukturelle Varianten als bereits existierende Methoden für kurze Reads, die aufgrund von schlechten Referenz-Alignments in den entsprechenden Regionen oft schlecht abschneiden. Im dritten Teil dieser Arbeit werden verschiedene Anwendungen von PanGenie vorgestellt. Es werden Ergebnisse der Genotypisierung struktureller Varianten in einer großen Kohorte menschlicher Genomen diskutiert, für die die Pangenom-Graphen der HGSVC- und HPRC-Projekte verwendet wurden. Die Ergebnisse verdeutlichen, dass PanGenie in der Lage ist, strukturelle Varianten zu genotypisieren, die zuvor mit anderen Methoden nicht zugänglich waren. Dies ermöglicht es, solche Varianten in "Quantitative Trait Locus"-Analysen einzubeziehen. Außerdem wird demonstriert, wie die von PanGenie über die Kohorte hinweg erzeugten SNP-Genotypen zur Erkennung von Trägern seltener Inversionen verwendet werden können. | |||||||
Lizenz: | ![]() Dieses Werk ist lizenziert unter einer Creative Commons Namensnennung 4.0 International Lizenz | |||||||
Fachbereich / Einrichtung: | Mathematisch- Naturwissenschaftliche Fakultät » WE Informatik » Bioinformatik | |||||||
Dokument erstellt am: | 04.07.2023 | |||||||
Dateien geändert am: | 04.07.2023 | |||||||
Promotionsantrag am: | 20.12.2022 | |||||||
Datum der Promotion: | 21.06.2023 |