Dokument: Computational methods for the recovery of low-ranking taxonomic bins and haplotype-specific gene assemblies from shotgun metagenomes
Titel: | Computational methods for the recovery of low-ranking taxonomic bins and haplotype-specific gene assemblies from shotgun metagenomes | |||||||
URL für Lesezeichen: | https://docserv.uni-duesseldorf.de/servlets/DocumentServlet?id=44804 | |||||||
URN (NBN): | urn:nbn:de:hbz:061-20180207-105429-4 | |||||||
Kollektion: | Dissertationen | |||||||
Sprache: | Englisch | |||||||
Dokumententyp: | Wissenschaftliche Abschlussarbeiten » Dissertation | |||||||
Medientyp: | Text | |||||||
Autor: | Gregor, Ivan [Autor] | |||||||
Dateien: |
| |||||||
Beitragende: | Prof. Dr. McHardy, Alice [Gutachter] Prof. Dr. Lercher, Martin [Gutachter] | |||||||
Dewey Dezimal-Klassifikation: | 500 Naturwissenschaften und Mathematik » 570 Biowissenschaften; Biologie | |||||||
Beschreibungen: | Metagenomics is the functional or sequence-based analysis of microbial DNA isolated directly from a microbial community of interest. As the cultivation conditions for most (~99%) microorganisms are unknown or too complex to reproduce in the laboratory, random shotgun and amplicon-sequencing based metagenome studies have led to substantial advances in our understanding of the structure and functions of microbial communities within the last decade. The key question of metagenome researchers is: “Who is there, what are they doing and who is doing what?” For instance, the human gut microbiome is a vast collection of symbiotic microorganisms. The gut microbiome performs many important biochemical functions for the host, where disorders of the microbiome are associated with many diverse diseases, e.g. the inflammatory bowel disease. Bioinformatics analyses are now able to describe the gut microbiome at a detailed genetic and functional level. The understanding of microbiome activity is essential to the development of personalized strategies in healthcare and to reveal new targets for drug development. Therefore, understanding microbial communities will improve our well-being and human health. Moreover, advances in sequencing technologies have been enormous in the last decade, while the throughput increased drastically, sequencing costs dropped. This enabled researchers to use next generation sequencing data as a common approach to study microorganisms originating from various environments, e.g. the human gut. Metagenome assembly and its subsequent taxonomic binning are two essential challenging tasks that are typically performed as a part of a metagenome sample analysis. We have developed Snowball, which is a strain aware gene assembler for metagenomes. To the best of our knowledge, this is the first gene assembler for metagenomic data that can distinguish gene variants of individual strains without using closely related reference genomes of the studied species. This is a very important property as metagenomes originating from novel environments oftentimes contain new unknown species for which there are no closely related reference genomes available. Moreover, for many purposes, including functional analysis of metagenomic data, it is sufficient to assemble only the coding sequences of the strains, as usually more than 85% of prokaryotic genomes are coding sequences. We have employed Snowball to assemble simulated reads generated from the recently published Rhizobia strains, which demonstrates the capability of our method to assemble gene sequences of closely related novel strains. We have also developed PhyloPythiaS+ that is an automated composition based taxonomic binning method. This method is a successor to the PhyloPythiaS software. We have fully automated this method by adding a new marker-gene based framework that automatically determines the most relevant taxa to be modeled and suitable training sequences directly from the input metagenome sample. To the best of our knowledge, this is the first method that combines taxonomic profiling and subsequent taxonomic composition based binning of the whole input metagenome sample. Moreover, we have developed a new k-mer counting algorithm that accelerated the whole method and showed state-of-the-art performance for the simultaneous enumeration of 4–6-mers, which is commonly used for composition based binning. We have also extensively evaluated the whole automated taxonomic binning pipeline by comparing it to the other methods and devised several new evaluation measures. The results showed that our method performed especially well for samples originating from novel environments in comparison to the other methods. These results were also confirmed in the CAMI challenge, in which PhyloPythiaS+ demonstrated its high recall and ability to correctly assign taxa that have longer taxonomic distances to the known reference genomes or draft genomes. PhyloPythiaS+ has also already been employed in several research studies. We believe that our methods will be valuable for researchers studying species evolution, strain or gene diversity, genes under selection, virulent genes, metagenome samples originating from novel environments, for draft genome reconstruction and for the subsequent functional analysis of the studied metagenome microbial communities.Metagenomik ist die funktionale oder Sequenz-basierte Analyse mikrobieller DNA, die direkt aus Umweltproben von Interesse isoliert wird. Für die meisten Mikroorganismen (~99%) sind die Bedingungen für eine erfolgreiche Anreicherung in Kultur unbekannt oder zu komplex um sie im Labor zu reproduzieren. Daher sind Metagenomstudien auf der Basis von Shotgun- und Amplikon-Sequenzierung für unser Verständnis der Struktur und Funktionen der mikrobiellen Gemeinschaften entscheidend. Die Schlüsselfragen der Metagenom-Forscher lauten dabei: “Wer ist da, was macht die Gemeinschaft und wer macht was?“ Das menschliche Darmmikrobiom ist beispielsweise eine riesige Sammlung von symbiotischen Mikroorganismen. Es übernimmt viele wichtige biochemische Funktionen für den Wirt, sodass Störungen des Mikrobioms mit vielen verschiedenen Krankheiten assoziiert werden, z.B. mit Reizdarm.
Bioinformatische Analysen sind heute in der Lage, das Darmmikrobiom auf einer detaillierten genetischen und funktionalen Ebene zu beschreiben. Sie bilden die Grundlage für personalisierte Strategien im Gesundheitswesen und es werden neue Ansatzstellen für die Arzneimittelentwicklung aufdecken. Darüber hinaus waren die Fortschritte in den Sequenzierungstechnologien im letzten Jahrzehnt enorm. Während der Datendurchsatz erheblich anstieg, sanken die Sequenzierungskosten. Dies ermöglicht es Forschern, die Next-Generation Sequenzdaten als Standardverfahren einzusetzen; also auch um Mikroorganismen zu untersuchen, die aus verschiedenen Umgebungen wie dem menschlichen Darm stammen. Die Assemblierung des Metagenoms und die anschließende taxonomische Zuordnung rekonstruierter DNA-Sequenzen sind dabei zwei wesentliche und anspruchsvolle Teilaufgaben einer Metagenom-Probenanalyse. Hierfür haben wir Snowball entwickelt. Snowball ist nach unserem besten Wissen der erste Gen-Assembler für Metagenom-Daten, der Genvarianten einzelner Stämme unterscheiden kann, ohne eng verwandte Referenz-Genome der untersuchten Spezies zu verwenden. Das ist eine sehr wichtige Eigenschaft, weil Metagenome aus neuartigen Umgebungen oft neue unbekannte Spezies enthalten, für die es keine eng verwandten Referenz-Genome gibt. Gleichzeitig genügt es für viele Zwecke, einschließlich der Funktionsanalyse von Metagenom-Daten, nur die kodierenden Sequenzabschnitte der Genome zu assemblieren, weil in der Regel mehr als 85% der prokaryotischen Genome für Proteine kodieren. Snowball konzentriert sich auf diese Abschnitte. Wir haben Snowball eingesetzt, um simulierte DNA-Abschnitte zu assemblieren, die aus kürzlich veröffentlichten Rhizobia-Stämmen generiert wurden. Dies zeigte die Fähigkeit unserer Methode, die Gensequenzen von eng verwandten neuartigen Stämmen bei der Assemblierung aufzulösen. Um die rekonstruierten Metagenom-Sequenzen auch taxonomisch zuordnen zu können, haben wir zudem PhyloPythiaS+ entwickelt. Diese Methode ist ein Nachfolger der Kompositions-basierten PhyloPythiaS Software. Wir haben diese Methode komplett automatisiert, indem wir ein neues Marker-Gen-basiertes Framework hinzugefügt haben, das automatisch die relevantesten Taxa modelliert und entsprechende Trainingssequenzen direkt aus der Metagenom-Probe bestimmt. Nach unserem besten Wissen ist dies die erste Methode, die das taxonomische Profiling und die anschließende taxonomische Kompositions-basierte Zuordnung der gesamten Metagenom-Probe kombiniert. Darüber hinaus haben wir einen neuen Zählalgorithmus für Nukleotidsequenzen der Länge k entwickelt, der die gesamte Methode beschleunigt. Der Zählalgorithmus zeigt eine State-of-the-Art Leistung für die gleichzeitige Aufzählung von Nukleotidsequenzen der Länge 4–6, die üblicherweise für die taxonomische Kompositions-basierte Zuordnung der Metagenom-Proben verwendet werden. Wir haben die gesamte automatisierte Pipeline umfassend mit den Wettbewerbern verglichen und dafür mehrere neue Evaluierungskriterien entwickelt. Die Ergebnisse zeigen, dass unsere Methode im Vergleich zu den anderen Methoden besonders gut für die Metagenom-Proben aus neuartigen Umgebungen geeignet ist. Die hohe Sensitivität von PhyloPythiaS+ und seine Fähigkeit zur korrekten Zuordnung von Taxa, die größere taxonomische Abstände zu den bekannten Referenz-Genomen haben, wurde auch in der CAMI Challenge bestätigt. PhyloPythiaS+ wurde darüber hinaus bereits in mehreren Forschungsprojekten eingesetzt. Wir glauben, dass unsere Methoden für Forscher in folgenden Bereiche wertvoll sind: Evolution von Arten, Diversität von Bakterienstämmen, Genvielfalt, Gene, die unter Selektion stehen, virulente Gene, Metagenom-Proben aus neuartigen Umgebungen, entwurfsweise Genom-Rekonstruktion und die anschließende Funktionsanalyse der untersuchten mikrobiellen Gemeinschaften. | |||||||
Lizenz: | Urheberrechtsschutz | |||||||
Fachbereich / Einrichtung: | Mathematisch- Naturwissenschaftliche Fakultät | |||||||
Dokument erstellt am: | 07.02.2018 | |||||||
Dateien geändert am: | 07.02.2018 | |||||||
Promotionsantrag am: | 28.07.2017 | |||||||
Datum der Promotion: | 18.01.2018 |