Dokument: Bringing Pangenomes to Proteomes: Toolkits for Panproteome Construction, Graph Alignments, and Epistasis Detection

Titel:Bringing Pangenomes to Proteomes: Toolkits for Panproteome Construction, Graph Alignments, and Epistasis Detection
URL für Lesezeichen:https://docserv.uni-duesseldorf.de/servlets/DocumentServlet?id=69998
URN (NBN):urn:nbn:de:hbz:061-20250701-111130-8
Kollektion:Dissertationen
Sprache:Englisch
Dokumententyp:Wissenschaftliche Abschlussarbeiten » Dissertation
Medientyp:Text
Autor: Dabbaghie, Fawaz [Autor]
Dateien:
[Dateien anzeigen]Adobe PDF
[Details]11,16 MB in einer Datei
[ZIP-Datei erzeugen]
Dateien vom 26.06.2025 / geändert 26.06.2025
Beitragende: Marschall, Tobias [Gutachter]
Prof. Dr. Kalinina, Olga V. [Gutachter]
Stichwörter:Bioinformatics
Dewey Dezimal-Klassifikation:000 Informatik, Informationswissenschaft, allgemeine Werke » 004 Datenverarbeitung; Informatik
Beschreibungen:Compared to biology, the field of computer science is much younger. However, it has been clear from the beginning that the combination of the two disciplines has had a significant impact. In particular, the use of data structures such as graphs and sequence algorithms has made it possible to analyze large amounts of genome sequencing data. Since the production of the first human reference genome in the early 2000s, many studies have shown the need for a better, more comprehensive representation of a reference genome than the linear reference. This led to the concept of pangenomes, and in particular, graph pangenomes. A graph pangenome is a data structure that is able to represent many linear references and sequences of a given species simultaneously, and is specifically designed to address the challenges and biases that arise when using a linear reference. However, with this advancement came the need to adapt and develop many algorithms and software toolkits to facilitate similar and new analyses that are regularly performed using linear references. In this thesis, we present several software tools that perform different analysis on large genome sequencing data. These tools employ a variety of statistical and algorithmic concepts, with a particular emphasis on bringing pangenomes to proteomes, genome graph manipulation tools, and sequence-to-graph alignment and processing The first chapter puts forth the concept of a panproteome in prokaryotes, a pangenome for the protein world. A panproteome, here, is represented as a collection of graphs representing proteins or coding regions. Moreover, we introduce PanPA, a software designed for the construction, indexing, and aligning of panproteomes. We assess the efficacy of our software by conducting experiments and providing benchmarks in diverse scenarios, employing multiple real-world datasets. We also show that PanPA and panproteomes are useful, especially in capturing sequence alignments that would otherwise be lost in the linear or DNA pangenome world, which further emphasizes the value of moving to the protein world. The second chapter presents several toolkits pertinent to working and analyzing graphs and pangenomes. We first present GFASubgraphs, a simple tool and API for working with genome graphs, aiding users in further downstream analysis of their graphs. Second, we introduce extgfa, that employs a similar graph API from the aforementioned tool in this chapter. However, it further explores the concept of external memory representations of graphs, facilitating the analysis of large genome graphs on smaller machines with limited RAM. Third, gaftools is introduced, a joint work that introduces crucial functionality to working with genome alignments in the GAF format. It bridges a gap in the alignment pro cessing ecosystem, where it implements functionalities that were previously only available in the linear alignment world. The third chapter describes an ongoing work in analyzing cancer and match normal cell lines using several sequencing platforms. In this work, we try to assemble both cell lines to a high quality, call structural variants using several algorithms and methods, and produce a high confidence set of somatic structural variants. Moreover, we investigate further the use of graphs in aiding in the previous steps, especially to disentangle and differentiate the variants and contigs that represent one cancer subclone from the other. To this end, we develop a graph drawing toolkit called graphdraw that assists in visualizing graph components, and extracting various important information from the assembly graphs, which enables us to investigate parts of the graph associated with certain information more efficiently. The last chapter presents a joint work on a novel statistical method and software for epistasis detection between mutations in proteins is presented, we call our software EpiPAMPAS. Subsequently, EpiPAMPAS was tested on both simulated and real data, where the results on the simulated data were very promising, and we were able to efficiently detect the epistatic interactions. For the real data, we compared our results to a previously published method and found significant overlap in the epistatic positions detected. Furthermore, we looked into the location of the positions detected in the 3D structure of the corresponding proteins, and investigated the biological significance of some of these positions.

Im Vergleich zur Biologie ist die Informatik ein deutlich jüngeres Fachgebiet. Dennoch wurde früh erkannt, dass die Kombination beider Disziplinen große Auswirkungen hat. Besonders der Einsatz von Datenstrukturen wie Graphen und Sequenzalgorithmen hat die Analyse großer Mengen an Genomsequenzierungsdaten ermöglicht. Seit der Veröffentlichung des ersten menschlichen Referenzgenoms in den frühen 2000er Jahren haben zahlreiche Studien gezeigt, dass ein umfassenderes und präziseres Referenzgenom anstelle des herkömmlichen linearen Modells notwendig ist. Dies führte zum Konzept des Pangenome, insbesondere des Graph-Pangenome. Ein Graph-Pangenom ist eine Datenstruktur, die mehrere lineare Referenzen und Sequenzen einer bestimmten Spezies gleichzeitig darstellen kann. Die Entwicklung von Graph-Pangenomen zielte darauf ab, die Probleme zu beheben, die bei der Nutzung linearer Referenzen auftreten. Allerdings führte dies auch zur Notwendigkeit, eine Vielzahl von Algorithmen und Software-Toolkits anzupassen oder neu zu entwickeln, um sowohl bestehende als auch neue Analysen zu ermöglichen, die üblicherweise mit linearen Referenzen durchgeführt werden. In der vorliegenden Arbeit werden mehrere Software-Tools vorgestellt, die verschiedene Analysen großer Genomsequenzierungsdaten ermöglichen. Die Tools basieren auf einer Vielzahl statistischer und algorithmischer Konzepte, wobei ein besonderer Schwerpunkt auf der Verknüpfung von Pangenomen mit Proteomen, der Bereitstellung von Werkzeugen zur Manipulation von Genomgraphen sowie der Entwicklung von Methoden zur Sequenz-zu-Graph Alignierung und -Verarbeitung liegt. Im ersten Kapitel wird das Konzept eines Panproteoms bei Prokaryoten erörtert, ein Pangenom für die Proteinwelt. Ein Panproteom wird hierbei als eine Sammlung von Graphen dargestellt, die Proteine oder kodierende Regionen repräsentieren.Darüber hinaus wird PanPA vorgestellt, eine Software, die für den Aufbau, die Indizierung und das Alignment von Panproteomen entwickelt wurde. Die Leistungsfähigkeit der Software wird durch die Durchführung von Experimenten und die Bereitstellung von Benchmarks in verschiedenen Szenarien bewertet, wobei mehrere reale Datensätze verwendet werden.Es wird gezeigt, dass PanPA und Panproteome insbesondere bei der Erfassung von Sequenzalignments nützlich sind, die sonst in der Welt der linearen oder DNA-Pangenome verloren gehen würden. Dies unterstreicht den Wert des Wechsels in die Proteinwelt. Im zweiten Kapitel werden mehrere Toolkits vorgestellt, die für die Arbeit und Analyse von Graphen und Pangenomen von Relevanz sind. Zunächst wird GFASubgraphs präsentiert, ein Tool und eine API für die Arbeit mit Genomgraphen, die den Benutzern bei der weiteren Analyse ihrer Graphen behilflich ist. Des Weiteren wird extgfa vorgestellt, das eine Graphen-API wie das zuvor beschriebene Tool in diesem Kapitel verwendet.GFASubgraphs erforscht das Konzept der Darstellung von Graphen in einem externen Speicher, um die Analyse großer Genomgraphen auf kleineren Rechnern mit begrenztem RAM zu erleichtern. gaftools ist eine Gemeinschaftsarbeit, die wichtige Funktionen für die Arbeit mit GenomAlignments im GAF-Format einführt. Es schließt eine Lücke im Ökosystem der AlignmentVerarbeitung, indem es Funktionalitäten implementiert, die bisher nur in der Welt des linearen Alignments verfügbar waren. Im dritten Kapitel wird eine laufende Arbeit zur Analyse von Krebs- und normalen Zelllinien unter Verwendung verschiedener Sequenzierungsplattformen beschrieben. Ziel dieser Arbeit ist die Auswertung und Assemblierung beider Zelllinien in hoher Qualität, die Bestimmung struktureller Varianten mit verschiedenen Algorithmen und Methoden sowie die Erstellung eines Satzes somatischer Strukturvarianten mit hohem Vertrauen. Darüber hinaus wird die Verwendung von Graphen zur Unterstützung der vorangegangenen Schritte, insbesondere zur Entflechtung und Unterscheidung der Varianten und Contigs, die einen Krebs-Subklon von dem anderen unterscheiden, untersucht. Zu diesem Zweck entwickeln wir ein Toolkit zum Zeichnen von Graphen mit dem Namen graphdraw, das bei der Visualisierung von Graphenkomponenten und der Extraktion verschiedener wichtiger Informationen aus den Assemblierunggraphen hilft, wodurch wir Teile des Graphen, die mit bestimmten Informationen verbunden sind, effizienter untersuchen können. Im letzten Kapitel wird eine neue statistische Methode und Software zur Erkennung von Epistasen zwischen Mutationen in Proteinen vorgestellt, die wir EpiPAMPAS nennen.Anschließend wurde EpiPAMPAS sowohl an simulierten als auch an realen Daten getestet, wobei die Ergebnisse bei den simulierten Daten sehr vielversprechend waren und wir in der Lage waren, die epistatischen Interaktionen effizient zu erkennen. Bei den realen Daten wurde ein Vergleich mit einer zuvor veröffentlichten Methode vorgenommen, wobei eine signifikante Überschneidung der erkannten epistatischen Positionen festgestellt wurde. Zudem wurde die Lage der entdeckten Positionen in der 3D-Struktur der entsprechenden Proteine untersucht und die biologische Bedeutung einiger dieser Positionen analysiert.
Lizenz:Creative Commons Lizenzvertrag
Dieses Werk ist lizenziert unter einer Creative Commons Namensnennung 4.0 International Lizenz
Fachbereich / Einrichtung:Mathematisch- Naturwissenschaftliche Fakultät
Dokument erstellt am:01.07.2025
Dateien geändert am:01.07.2025
Promotionsantrag am:28.02.2025
Datum der Promotion:23.06.2025
english
Benutzer
Status: Gast
Aktionen