Dokument: Daten-effizientes Maschinelles Lernen in den Lebenswissenschaften
Titel: | Daten-effizientes Maschinelles Lernen in den Lebenswissenschaften | |||||||
Weiterer Titel: | Data-efficient Machine Learning in the Life Sciences | |||||||
URL für Lesezeichen: | https://docserv.uni-duesseldorf.de/servlets/DocumentServlet?id=48041 | |||||||
URN (NBN): | urn:nbn:de:hbz:061-20181219-113108-2 | |||||||
Kollektion: | Dissertationen | |||||||
Sprache: | Englisch | |||||||
Dokumententyp: | Wissenschaftliche Abschlussarbeiten » Dissertation | |||||||
Medientyp: | Text | |||||||
Autor: | Blum, Christopher [Autor] | |||||||
Dateien: |
| |||||||
Beitragende: | Kollmann, Markus [Gutachter] Prof. Dr. Klau, Gunnar [Gutachter] | |||||||
Dewey Dezimal-Klassifikation: | 500 Naturwissenschaften und Mathematik » 570 Biowissenschaften; Biologie | |||||||
Beschreibungen: | Die Untersuchung von Algorithmen, die von Daten lernen können, wird als Maschinelles Lernen bezeichnet. Kürzlich wurde demonstriert, dass Maschinelles Lernen die effektive Integration großer
biologischer Datensätze und damit die Analyse komplexer biologische Systeme ermöglicht. Allerdings verhindern sowohl biologische als auch technische Einschränkungen oft die Produktion von genügend relevanten Daten, und die “out-of-the-box” Anwendung von Maschinellem Lernen kann nicht immer relevante Dateneigenschaften erfassen. Allerdings kann Vorwissen über die zugrundeliegenden Datenstrukturen die Leistung von Algorithmen stark verbessern. Diese Doktorarbeit beschreibt den Effekt von biologischer Vorinformation auf die Fähigkeit von Algorithmen, Modelle für vier fundamentale biologische Systeme zu lernen: Genregulatorische Netzwerke, Sequenz-Muster, translationelle Effizienz und RNA-Faltung. Genregulatorische Netzwerke ermöglichen die genaue Steuerung und Anpassung von Genexpression und beruhen auf tausenden molekularer Interaktionen. In Kapitel 1 wird gezeigt, wie sowohl eine biologisch inspirierte Obergrenze für Messrauschen, als auch eine neuartige Methode zum Zusammenfassen von Genen die Inferenz von Netzwerken von großen Datensätzen signifikant verbessert. Kapitel 2 beschreibt ein neuartiges künstliches neuronales Netzwerk, welches alle zirkulär verschobenen Varianten des gleichen Filters benutzt. Damit wird die robuste Inferenz von Transkriptionsfaktorbindestellen selbst bei sehr kleinen Datensätzen und/oder langen Sequenzen ermöglicht. Messenger RNAs, die für das gleiche Protein kodieren aber aus verschiedenen Kodons bestehen, werden mit verschiedener Effizienz translatiert. Dieses Phänomen wird als translationelle Effizienz bezeichnet. In Kapitel 3 wird, basierend auf mehreren großen Datensätzen, die Rolle von verschiedenen Sequenz-Eigenschaften bezüglich ihres Effektes auf translationelle Effizienz untersucht. Außerdem wurde die Generalierungsfähigkeit der trainierten Modelle untersucht. RNA-Faltung bezeichnet den Prozess, bei dem sich RNAs in spezifische Sekundärstrukturen zusammenfalten, die durch ihre Sequenzen determiniert sind. In Kapitel 4 wird gezeigt, dass das Auflisten von intramolekularen Hybdridisierungszuständen dabei hilft, die Regeln für RNA-Faltung zu lernen. Insgesamt zeigt die vorliegende Arbeit Belege dafür auf, dass es oftmals nicht ausreicht, komplexe biologische Systeme ausschließlich mit großen Datenmengen und Rechenkraft zu untersuchen. Vielmehr bedarf es Daten-effizienter Algorithmen, die maßgeschneidert für zugrundeliegende Probleme sind, sodass das Lernen von relevanten Dateneigenschaften ermöglicht wird.Machine learning is the study of algorithms that can learn from data. Recently, the successful application of machine learning to biological problems has demonstrated effective integration of several large biological data sets to yield biological conclusions. However, technical or biological constraints often prevent the production of sufficient relevant data, and out-of-the-box application of machine learning tools can fail to learn relevant data features. Prior knowledge about the underlying data structure can substantially improve the performance of machine learning algorithms. This thesis describes the effects of biologically informed machine learning techniques on the ability to learn models for four fundamental biological problems from data: gene regulatory networks, sequence motifs, translational efficiency and RNA folding. Gene regulatory networks enable tightly regulated adaptive gene expression and are comprised of thousands of molecular interactions. In chapter 1, it is shown that a biologically informed noise cutoff as well as a novel gene clustering method substantially improve inference of gene regulatory networks from large-scale data sets. Chapter 2 describes how a novel convolutional neural network architecture that utilizes all circularly shifted variants of the same filter enables robust inference of transcription factor binding sites from very small sample sizes and/or long sequences with short motifs. Messenger RNAs that code for the same protein but are composed of different codons are translated at different rates, a phenomenon termed translational efficiency. The roles of different sequence features are explored on the basis of several large-scale data sets, and the generalization ability of the trained models is examined in chapter 3. RNAs assume specific secondary structures that are determined by their sequences, a process called RNA folding. In chapter 4, it is shown that enumerating intramolecular hybridization states helps to learn secondary structure, however the applied neural network does not scale with sequence length. Overall, the presented work provides evidence that it can be insufficient to address complex biological problems with large amounts of data and computational power alone. Progress requires data-efficient machine learning algorithms that are tailored to the problem of interest and promote learning of the relevant data features. | |||||||
Lizenz: | Urheberrechtsschutz | |||||||
Fachbereich / Einrichtung: | Mathematisch- Naturwissenschaftliche Fakultät » WE Biologie | |||||||
Dokument erstellt am: | 19.12.2018 | |||||||
Dateien geändert am: | 19.12.2018 | |||||||
Promotionsantrag am: | 06.07.2018 | |||||||
Datum der Promotion: | 10.12.2018 |