Dokument: Greedy phylogeny-based orthology assignment and its application to the evolutionary analysis of metabolic coupling
Titel: | Greedy phylogeny-based orthology assignment and its application to the evolutionary analysis of metabolic coupling | |||||||
URL für Lesezeichen: | https://docserv.uni-duesseldorf.de/servlets/DocumentServlet?id=18393 | |||||||
URN (NBN): | urn:nbn:de:hbz:061-20110607-120721-4 | |||||||
Kollektion: | Dissertationen | |||||||
Sprache: | Englisch | |||||||
Dokumententyp: | Wissenschaftliche Abschlussarbeiten » Dissertation | |||||||
Medientyp: | Text | |||||||
Autor: | Thuß, Sabine [Autor] | |||||||
Dateien: |
| |||||||
Beitragende: | Prof. Dr. Lercher, Martin [Betreuer/Doktorvater] Prof. Dr. Martin, William [Gutachter] | |||||||
Stichwörter: | Bioinformatics, Comparative Genomics, Evolutionary Analysis, phyloCOP, Orthology assignment, Prokaryotes, E. coli, Metabolic coupling, Metabolic network analysis | |||||||
Dewey Dezimal-Klassifikation: | 000 Informatik, Informationswissenschaft, allgemeine Werke » 004 Datenverarbeitung; Informatik | |||||||
Beschreibungen: | Orthologous proteins descend from a common ancestral protein via a speciation event and often keep their ancestral functions. Therefore, orthology assignment is often applied to identify gene content and functions in newly sequenced species. No commonly accepted gold standard exists so far for orthology assignment. One reason for this is a preference of different evolutionary mechanisms in different phylogenetic clades. Eukaryotic genomes often evolve via gene duplication, while LGT (Lateral Gene Transfer) is more frequent in prokaryotes. The development of orthology assignment methods is therefore often based on the research aim and requires more or less detailed resolution of different types of homology.
In this work I developed phyloCOP (phylogeny-based Clusters of Orthologous Proteins), a new greedy phylogeny- and reference-based orthology assignment method that detects transitive orthologous relationships in prokaryotes, while simultaneously excluding paralogy. PhyloCOP was designed to create orthologous clusters without one-to-many relations (paralogous genes) that can be directly used for function prediction and evolutionary studies. PhyloCOP provides customizable parameters to adjust the algorithm to the requirements of various datasets and research aims. The user defines the reference genome on which her or his comparative research is based. The degree of transitivity between orthologs within a cluster is also user-specified, which makes phyloCOP adjustable to prokaryotic datasets that include genomes with various phylogenetic distances. In order to evaluate phyloCOP, clusters generated from 14 and 539 prokaryotic genomes were compared to similar sequence similarity-based algorithms. PhyloCOP clusters that correspond to universally distributed Clusters of Orthologous Genes included genes from nearly all analyzed genomes, which is a proof for good orthology assignment quality. Metabolic networks consist of metabolites connected by reactions, which are catalyzed by enzymes. Complex network connections are resolved best by regarding simpler units within the system. Coupled reaction subsets, basic functional modules of metabolic networks, in which reactions are connected in a common anabolic, catabolic or transport pathway, are used in this work to get insights into the evolution of metabolic networks in prokaryotes. If metabolic network reactions and catalytic enzyme composition of the reference genome are established, metabolic network composition of other genomes can be resolved via transitive orthology prediction. I applied comparative analysis to enzymes that catalyze fully coupled reaction pairs to investigate metabolic network evolution using Escherichia coli K12 MG1655 as reference. Ancestral relations between 14 E. coli genomes were reconstructed from phyloCOP clusters and topologically displayed in a phylogenetic tree. Genomes were assigned to specific evolutionary times based on their last common ancestor with the reference genome. The existence of corresponding enzymes was checked at each ancestral time for each pair of coupled reaction enzymes. In order to resolve loss of reaction couplings and the occurrence of gene loss or LGT at specific evolutionary times, fractions of coupled and non-coupled enzyme pairs were calculated at each ancestral time point. I detected a correlation between gene loss and reaction coupling. All metabolic couplings turned out to be ancient and likely existed already in the common ancestor of the species analysed. However, there was a trend of increased loss of couplings in individual species with increasing phylogenetic distance. Previously documented gene loss in E. coli DH10B a substrain of E. coli K12 MG1655 was verified, which further supports the good quality of the clusters generated with phyloCOP. In order to get deeper insights into the evolution of metabolic coupling, further studies with larger datasets of more distantly related genomes are recommended.Orthologe Proteine entstehen aus einem gemeinsamen Vorgängerprotein bei der Artenbildung und behalten oft ihre ursprüngliche Funktion. Die Bestimmung orthologer Proteine wird daher häufig verwendet um die Genzusammensetzung und Genfunktionen in neu sequenzierten Arten zu ermitteln. Es gibt bisher keine gemeinhin akzeptierte Standardmethode zur Bestimmung von Orthologie. Ein Grund dafür ist, dass verschiedene phylogenetische Stämme unterschiedliche Evolutionsmechanismen bevorzugen. Eukaryotische Genome evolvieren häufig durch Genduplikation, während LGT (Lateraler Gen Transfer) häufiger in Prokaryoten vorkommt. Methoden zur Bestimmung von Orthologie werden deshalb oft für ein bestimmtes Forschungsziel entwickelt und es wird eine mehr oder weniger detaillierte Auflösung verschiedener Arten von Homologie benötigt. In dieser Arbeit habe ich phyloCOP (phylogeniebasierte Cluster Orthologer Proteine) entwickelt, eine neue gierige phylogenie- und referenzbasierte Methode zur Bestimmung von Orthologie, die transitive Orthologieverhältnisse in Prokaryoten detektiert und gleichzeitig Paralogie ausschließt. PhyloCOP wurde entwickelt, um Cluster mit einfachen Eins-zu-Eins-Verhältnissen der orthologen Proteine untereinander zu finden (ohne paraloge Proteine), die direkt für Funktionsvorhersagen und Evolutionsanalysen verwendet werden können. Der phyloCOP Algorithmus kann durch benutzerdefinierte Parameter an die Erfordernisse verschiedener Datensätze und Forschungsziele angepasst werden. Die Nutzerin oder der Nutzer bestimmt das Referenzgenom auf dem ihre oder seine vergleichenden Forschungen basieren. Der Grad der Transitivität zwischen den Orthologen Proteinen innerhalb eines Clusters wird ebenfalls durch den Benutzer festgelegt. Dadurch können die Eigenschaften von phyloCOP an prokaryotische Datensätze mit Genomen unterschiedlicher phylogenetischer Distanz angepasst werden. Um phyloCOP zu bewerten, wurden Cluster für 14 und 539 prokaryotische Genome erstellt und mit den Ergebnissen ähnlichen Algorithmen, die auch auf Sequenzähnlichkeiten basieren, verglichen. PhyloCOP Cluster, die universell vorkommenden Clustern Orthologer Gene entsprechen, enthielten ein Gen von fast jedem untersuchten Genom, was ein Beleg für die gute Qualität der Orthologiebestimmung ist. Metabolische Netzwerke bestehen aus Metaboliten, die durch Reaktionen miteinander verbunden sind die wiederrum von Enzymen katalysiert werden. Komplexe Netzwerkverbindungen können am besten aufgelöst werden indem man einfachere Einheiten innerhalb des Systems betrachtet. Gruppen gekoppelter Reaktionen, grundlegende Funktionsmodule metabolischer Netzwerke, in denen Reaktionen in einem gemeinsamen anabolischen oder katabolischen Pfad oder einem Transportweg verbunden sind, werden in dieser Arbeit verwendet um einen Einblick in die Evolution prokaryotischer metabolischer Netzwerke zu gewinnen. Wenn Reaktionen des metabolischen Netztwerks und die Zusammensetzung der katalytischen Enzyme eines Referenzgenoms bekannt sind, kann die Zusammensetzung metabolischer Netzwerke anderer Genome durch transitive Vorhersage von orthologen Proteinen ermittelt werden. Zur Untersuchung der Evolution metabolischer Netzwerke habe ich eine vergleichende Analyse mit Enzymen durchgeführt, die vollständig gekoppelte Reaktionspaare katalysieren und dabei Escherichia coli K12 MG1665 als Referenz verwendet. Die Verwandtschaftsverhätnisse von 14 E. coli Genomen wurden aus phyloCOP Clustern rekonstruiert und als phylogenetischer Baum dargestellt. Basierend auf ihrem letzten gemeinsamen Vorfahren mit dem Referenzgenom wurden die Genome bestimmten evolutionären Zeitpunkten zugeordnet. An jedem evolutionären Urzeitpunkt wurde das Vorkommen orthologer Enzyme für jedes Paar gekoppelter Reaktionen überprüft. Um den Verlust von Reaktionskopplungen sowie das Auftreten von Genverlust oder LGT an bestimmten evolutionären Zeitpunkten aufzulösen, wurden die Anteile gekoppelter und ungekoppelter Enzympaare an jedem Urzeitpunkt berechnet. Dabei habe ich eine Zusammenhang zwischen Genverlust und Reaktionskopplung detektiert. Es stellte sich heraus, dass alle metabolischen Kopplungen ursprünglich sind und vermutlich bereits im gemeinsamen Vorfahren aller untersuchter Arten vorkamen. Allerdings gab es die Tendenz eines vermehrten Verlustes an Kopplungen in einzelnen Arten. Ein im Vorfeld dokumentierter Genverlust in E. coli DH10B, einem Unterstamm von E. coli K12 MG1655 wurde bestätigt, ein weiterer Nachweis für die gute Qualität der Cluster die mit phyloCOP erstellt wurden. Um einen tieferen Einblick in die Evolution metabolischer Kopplung zu gewinnen, werden weiterführende Studien mit größeren Datensätzen weiter entfernt verwandter Genome empfohlen. | |||||||
Lizenz: | Urheberrechtsschutz | |||||||
Fachbereich / Einrichtung: | Mathematisch- Naturwissenschaftliche Fakultät » WE Informatik » Bioinformatik | |||||||
Dokument erstellt am: | 07.06.2011 | |||||||
Dateien geändert am: | 07.06.2011 | |||||||
Promotionsantrag am: | 21.04.2011 | |||||||
Datum der Promotion: | 27.05.2011 |