Dokument: RNA-Alignments und RNA-Struktur in silico

Titel:RNA-Alignments und RNA-Struktur in silico
URL für Lesezeichen:https://docserv.uni-duesseldorf.de/servlets/DocumentServlet?id=3385
URN (NBN):urn:nbn:de:hbz:061-20060508-001385-5
Kollektion:Dissertationen
Sprache:Deutsch
Dokumententyp:Wissenschaftliche Abschlussarbeiten » Dissertation
Medientyp:Text
Autor: Wilm, Andreas [Autor]
Dateien:
[Dateien anzeigen]Adobe PDF
[Details]2,79 MB in einer Datei
[ZIP-Datei erzeugen]
Dateien vom 09.02.2007 / geändert 09.02.2007
Beitragende:Prof. Dr. Steger, Gerhard [Gutachter]
Prof. Dr. Wagner, Rolf [Gutachter]
Prof. Dr. Giegerich, Robert [Gutachter]
Stichwörter:RNA, Alignment, RNA-Alignment, BRAliBase, Alignment Benchmark, Alignment-Qualität, Konsensusstruktur-Vorhersage, ConStructRNA, alignment, rna alignment, BRAliBase, alignment benchmark, alignment quality, consensus structure prediction, ConStruct
Dewey Dezimal-Klassifikation:500 Naturwissenschaften und Mathematik » 570 Biowissenschaften; Biologie
Beschreibungen:Alignments nicht-Protein-kodierender RNAs (ncRNAs) haben ein weites Spektrum von Anwendungen: sie werden für Phylogenie-Vorhersagen, Konsensusstruktur-Vorhersagen, sowie für Homologiesuchen in Datenbanken und zur Suche nach neuen ncRNAs eingesetzt. Dabei hat die Qualität des eingesetzten Alignments entscheidenden Einfluss auf den Erfolg dieser Methoden. Gleichzeitig ist das korrekte Alignment von ncRNAs u. a. deshalb besonders schwierig, da sie in basengepaarten Bereichen durch kompensatorische Basenpaaraustausche ­ wechselseitige Mutationen, welche die Basenpaarung erhalten, aber die Sequenz-Homologie zerstören ­ evolvieren. Zwar existiert ein Algorithmus für die simultane Lösung von Strukturvorhersage und Alignment, jedoch ist dieser praktisch nicht einsetzbar, da seine Laufzeit und sein Speicherbedarf exponentiell von der Anzahl der Sequenzen abhängig sind. Selbst vereinfachende Implementationen dieses Algorithmus sind aufgrund ihrer Komplexität auf das paarweise Alignment beschränkt, so dass auch für das Alignment von ncRNAs Sequenz-Alignment-Programme eingesetzt werden. In dieser Arbeit sollte ein Benchmark von Alignment-Programmen angewendet auf ncRNAs durchgeführt werden. Dieser Benchmark inkl. der zugehörigen Datenbank können als RNAPendant der Protein-spezifischen BAliBASE verstanden werden. Um einen solchen Benchmark zu ermöglichen, mussten zunächst entsprechende Bewertungsmaße entwickelt werden, welche die Eigenschaften eines RNA-Alignments auf Sequenz- und Struktur-Ebene abbilden können. Hier wurden die sich ideal ergänzenden Maße SPS (,,Sum-of-Pairs-Score") und SCI (,,Structure Conservation Index") eingesetzt. Weiterhin mussten Test-Sets mit jeweils vorhandener ,,richtiger" Lösung konstruiert werden, die in ihren Eigenschaften (Sequenz-Anzahl und SequenzHomologie) gezielt variieren, um so den Einfluss der Eigenschaften auf die Programme quantitativ bestimmen zu können. Die zunächst angedachte Vorgehensweise, diese mit Hilfe des Programms CONSTRUCT zu erstellen, musste aus Zeitgründen verworfen werden. Stattdessen wurden auf zwei verschiedene Arten Test-Sets aus großen, vertrauenswürdigen Alignments der Rfam-Datenbank (,,RNA family Database") konstruiert. In Kooperation entstand der erste systematische Benchmark von Alignment-Programmen angewendet auf ncRNA-Sequenzen. Anhand dessen wurde es erstmals möglich, Programm-Parameter für das RNA-Alignment-Problem zu optimieren, wie beispielsweise für die Programme MAFFT, MUSCLE und STRAL geschehen. Dieser Benchmark wurde durch einen zweiten Test komplementiert, der aktuelle Programmversionen, verbesserte Test-Sets und statistische Rangtests beinhaltete. Mit den beiden DatenSätzen und dem zur Verfügung stehenden Bewertungssystem war ein objektiver Vergleich und eine Evaluation von Alignment-Programmen möglich. Es konnte u. a. gezeigt werden, dass die sogenannte ,,Twilight Zone", der Homologie-Bereich unterhalb dessen die Qualität der Alignments dramatisch fällt, für RNAs bei 55% SequenzHomologie, statt wie bei Proteinen bei 20% liegt und oberhalb von etwa 75% Sequenz-Homologie die Leistung aller Programme nahezu gleich gut ist. Weiterhin ergab sich, dass iterative Alignment-Methoden insbesondere bei divergenten Sequenzen und bei steigender SequenzZahl im Vergleich zu nicht-iterativen Methoden deutlich die besten Alignments erzeugen. Das Programm MAFFT zeigt mit der Option ,,ginsi" statistisch signifikant die beste Leistung von allen hier getesteten Programmen.

Alignments of non-protein-coding RNAs (ncRNAs) have a wide range of applications: they are used for inference of phylogeny, for homology database searches and for finding new ncRNAs. Alignment quality is crucial for the successful application of these methods. Yet, aligning ncRNAs correctly is very difficult because paired regions evolve by compensatory base pair changes, i.e. mutual mutations which preserve base pairing but destroy sequence homology. An algorithm for the simultaneous alignment of ncRNA sequence and structure exists, but its computational complexity is exponential, making it virtually unemployable. Even simplified implementations are restricted to pairwise alignment only, due to their computational complexity. Thus sequence alignment programs are used for the alignment of ncRNAs. In this work a benchmark of alignment programs upon ncRNAs should be performed. This benchmark including the respective database can be considered as an RNA counterpart of the protein specific database called BAliBASE. To make such a benchmark possible, appropriate accuracy measures are needed which display RNA alignment properties on sequence and structure level. Here, the measures SPS ("Sum-of-Pairs-Score") and SCI ("Structure Conservation Index") were used, which complement each other perfectly. Furthermore, test sets including reference solutions needed to be constructed, which vary systematically in their properties (sequence number and sequence homology), thus making it possible to quantify the effect of these properties on the programs. The initially planned approach to compile these test sets by means of CONSTRUCT was discarded as this approach would take an unreasonably long time. Instead, two different approaches were employed using large, reliable alignments of the RfamDatabase ("RNA family Database"). In a collaboration the first systematic benchmark of alignment programs upon ncRNA sequences was carried out. On the basis of this benchmark it was possible to optimize program parameters for the RNA alignment problem. This was done for the programs MAFFT, MUSCLE and STRAL for instance. This first benchmark was complemented by a second one, which used up-to-date program versions, improved test sets and statistical rank tests. By means of these two data sets and the applied quality rating system, an objective evaluation of alignment programs was possible. Amongst other things it was demonstrated that the so called "Twilight Zone" ­ the homology threshold below which alignment quality drops drastically ­ is at 55% sequence homology, compared to 20% for proteins. Above 75% sequence homology all programs perform equally well. Further on, it was shown that iterative alignment methods perform clearly better than noniterative methods, particularly if sequences are divergent and the number of sequences rises. The performance of the program MAFFT (option "ginsi") was statistically better than that of all other tested programs.
Lizenz:In Copyright
Urheberrechtsschutz
Fachbereich / Einrichtung:Mathematisch- Naturwissenschaftliche Fakultät » WE Biologie
Dokument erstellt am:08.05.2006
Dateien geändert am:12.02.2007
Promotionsantrag am:02.05.2006
Datum der Promotion:02.05.2006
english
Benutzer
Status: Gast
Aktionen