Dokument: False Discovery Rate and Asymptotics

Titel:False Discovery Rate and Asymptotics
URL für Lesezeichen:https://docserv.uni-duesseldorf.de/servlets/DocumentServlet?id=6736
URN (NBN):urn:nbn:de:hbz:061-20080121-092717-6
Kollektion:Dissertationen
Sprache:Englisch
Dokumententyp:Wissenschaftliche Abschlussarbeiten » Dissertation
Medientyp:Text
Autor:M. Sc. Dickhaus, Thorsten-Ingo [Autor]
Dateien:
[Dateien anzeigen]Adobe PDF
[Details]7,94 MB in 2 Dateien
[ZIP-Datei erzeugen]
Dateien vom 18.01.2008 / geändert 18.01.2008
Stichwörter:false discovery rate, multiple hypotheses testing, asymptotic statistics
Dewey Dezimal-Klassifikation:500 Naturwissenschaften und Mathematik » 510 Mathematik
Beschreibungen:The false discovery rate (FDR) is a rather young error control criterion in multiple testing problems. Initiated by the pioneering paper by Benjamini and Hochberg from 1995, it has become popular in the 1990ies as an alternative to the strong control of the family-wise error rate, especially if a large system of hypotheses is at hand and the analysis has mainly explorative character. Instead of controlling the probability of one or more false rejections, the FDR controls the expected proportion of falsely rejected hypotheses among all rejections. One typical application with strong impact on the development of the FDR is the first step (screening phase) of a microarray experiment where the experimenter aims at detecting a few candidate genes or SNPs potentially associated with a disease, which are than further analyzed using more stringent error handling methods. Especially due to such nowadays' applications with families of ten thousands or even some hundred thousands of hypotheses at hand, asymptotic considerations (with the number of hypotheses to be tested simultaneously tending to infinity) become more and more relevant.

In this work, the behavior of the FDR is mainly studied from a theoretical point of view. After some fundamental issues as a preparation in Chapter 1, focus is laid in Chapter 2 on the asymptotic behaviour of the linear step-up procedure originally introduced by Benjamini and Hochberg. Since it is well known that this procedure strongly controls the FDR under positive dependency, we investigate the asymptotic conservativeness of this procedure under various distributional settings in depth. The results imply that, depending on the strength of positive dependence among the test statistics and the proportion of true nulls, the FDR can be close to the pre-specified error level or can be very small. Typically, the latter case leads to low power of the linear step-up procedure which raises the possibility for improvements of the algorithm.

One improvement of Benjamini and Hochberg's procedure is presented and discussed in Chapter 3. Instead of using critical values increasing linearly (or, in other words, a linear rejection curve), we derive a non-linear and in some sense asymptotically optimal rejection curve leading to the full exhaustion of the FDR level under some extreme parameter configurations. This curve is then implemented into some stepwise multiple test procedures which control the FDR asymptotically or (with slight modifications) for a finite number of hypotheses. For the proof of FDR control for procedures employing non-linear critical values, some new methodology of proof is worked out.

Chapter 4 then compares the newly derived methods with the original linear step-up procedure and other improved procedures with respect to multiple power. The results in this comparisons section are based on computer simulations. It turns out that certain procedures perform better in certain distributional setups or in other words that one can choose the appropriate FDR controlling algorithm to serve the purpose of detecting the most relevant alternatives most properly.

Besides all these theoretical and methodological topics, we are also concerned with some practical aspects of FDR. We apply FDR controlling procedures to real life data and illustrate the functionality, assets and drawbacks of the different methods using these data sets.

Die "False Discovery Rate" (FDR) ist ein recht junges Fehlerkontrollkriterium in multiplen Testproblemen. Beginnend mit dem Artikel von Benjamini und Hochberg aus dem Jahre 1995 wurde es in den 1990er Jahren als Alternative zur Kontrolle des multiplen Niveaus beliebt, insbesondere bei Vorliegen eines sehr mächtigen Hypothesensystems und vornehmlich explorativem Charakter der Analyse. Die FDR kontrolliert nicht die Wahrscheinlichkeit einer einzigen fälschlichen Verwerfung einer Nullhypothese, sondern den erwarteten Anteil fälscherlicherweise verworfener Hypothesen an allen Verwerfungen. Ein typisches Beispiel mit starkem Einfluss auf die Entwicklung der FDR ist der erste Schritt (die "Screeningphase") eines Microarray-Experimentes, in dem der Experimentator einige potenziell mit einer Erkrankung assoziierten Kandidatengene oder SNPs detektieren möchte, welche dann unter stringenterer statistischer Fehlerkontrolle weiter analysiert werden. Wegen aktueller Anwendungen mit aus mehreren zehntausenden oder gar einigen hunderttausenden simultan zu prüfender Hypothesen bestehender Familien gewinnen asymptotische Überlegungen (gegen unendlich strebende Hypothesenzahl) immer mehr an Relevanz.

In dieser Arbeit wird das Verhalten der FDR vornehmlich vom theoretischen Standpunkt aus untersucht. Nach einigen Vorüberlegungen in Kapitel 1 wird der Fokus in Kapitel 2 auf das asymptotische Verhalten der von Benjamini und Hochberg eingeführten linearen step-up Prozedur gelegt. Da bekannt ist, dass sie die FDR unter positiver Abhängigkeit kontrolliert, untersuchen wir, wie konservativ sich die Prozedur in entsprechenden Verteilungsmodellen asymptotisch verhält. Die Resultate zeigen, dass (je nach Grad der Abhängigkeit und Anteil wahrer Nullhypothesen) die FDR nahe dem vorgegebenen Niveau, aber auch sehr klein sein kann. Letzterer Fall hat eine geringe Güte der Prozedur zur Folge und eröffnet Raum für Verbesserungen des Algorithmus'.

Eine Verbesserung der Benjamini-Hochberg Prozedur wird in Kapitel 3 eingeführt und diskutiert. Anstatt linear wachsende kritische Werte (oder anders ausgedrückt eine Ablehngerade) zu benutzen, entwickeln wir eine nichtlineare und in gewissem Sinne asymptotisch optimale Ablehnkurve, um das FDR-Niveau unter extremen Modellannahmen ganz auszuschöpfen. Die Kurve dient zur Herleitung schrittweiser Tests, die die FDR asymptotisch oder (mit leichten Modifikationen) für eine finite Anzahl an Hypothesen kontrollieren. Zum Beweis der FDR-Kontrolle für Prozeduren, die auf nicht-linearen kritischen Werten basieren, wird eine neue Beweistechnik ausgearbeitet. Kapitel 4 vergleicht die neu entwickelten Methoden mit der ursprünglichen step-up Prozedur und anderen Verbesserungen hinsichtlich eines multiplen Gütemaßes. Die Aussagen dieser Vergleichsstudie basieren auf Computersimulationen. Es zeigt sich, dass bestimmte Tests unter gewissen Verteilungsannahmen Vorteile besitzen bzw. ein geeignetes FDR- kontrollierendes Verfahren ausgewählt werden kann, um gewisse Alternativen bestmöglich zu erkennen.

Neben diesen theoretisch-methodischen Aspekten beschäftigen sich einige Anwendungsbeispiele auch mit der praktischen Seite der FDR. Wir wenden FDR-kontrollierende Prozeduren auf Realdaten an und diskutieren Funktionsweise sowie Vor- und Nachteile der jeweiligen Testprozeduren anhand dieser Datensätze.
Fachbereich / Einrichtung:Sonstige Einrichtungen/Externe
Dokument erstellt am:18.01.2008
Dateien geändert am:18.01.2008
Promotionsantrag am:21.11.2007
Datum der Promotion:15.01.2008
english
Benutzer
Status: Gast
Aktionen