Dokument: Controlling the Number of False Rejections in Multiple Hypotheses Testing

Titel:Controlling the Number of False Rejections in Multiple Hypotheses Testing
URL für Lesezeichen:https://docserv.uni-duesseldorf.de/servlets/DocumentServlet?id=23691
URN (NBN):urn:nbn:de:hbz:061-20130205-135539-0
Kollektion:Dissertationen
Sprache:Englisch
Dokumententyp:Wissenschaftliche Abschlussarbeiten » Dissertation
Medientyp:Text
Autor: Scheer, Marsel [Autor]
Dateien:
[Dateien anzeigen]Adobe PDF
[Details]35,49 MB in einer Datei
[ZIP-Datei erzeugen]
Dateien vom 05.02.2013 / geändert 05.02.2013
Beitragende:Apl. Prof. Dr. Finner, Helmut [Gutachter]
Prof. Dr. Janssen, Arnold [Gutachter]
Dewey Dezimal-Klassifikation:500 Naturwissenschaften und Mathematik » 510 Mathematik
Beschreibungen:Die Erfindung des Computers hat unser alltägliches Leben und die Arbeit von Wissenschaftlern gravierend verändert. Heutzutage ist man in der Lage, große Mengen an Daten zu sammeln, zu speichern und zu verarbeiten. Die Analyse solcher Datenensätze erfordert es, die klassische Statistik anzupassen und zu erweitern. Beispielsweise kann das Expressionsmuster aller Gene einer einzelnen Person zu einem beliebigen Zeitpunkt gemessen werden. Mißt man das Expressionsmuster aller Gene (ca. 23.000) bei 2 Gruppen mit je 500 Personen, erhält man circa 20.000.000 Messwerte. Selbstverständlich ist man nicht nur daran interessiert festzustellen, ob die Muster zwischen den Gruppen sich unterscheiden, sondern insbesondere daran, einzelne Gene zu bestimmen, die unterschiedlich exprimiert werden. Allgemeiner gesagt, für eine Menge von Nullhypothesen ist es das Ziel zu entscheiden, welche wahr bzw. falsch sind. Die Entwicklung von Prozeduren, die für jede einzele Nullhypothese eine Entscheidung treffen und gleichzeitig ein vorgegebenes Fehlerkriterium einhalten, ist ein Teil der Theorie des multiplen Hypothesentestens. Das Hauptthema dieser Dissertation ist die Einführung eines neuen Fehlerkriteriums und die Entwicklung von Prozeduren, welche dieses Fehlerkriterium einhalten.

In Kapitel 1 geben wir allgemeine Rahmenbedingungen für die Dissertation an und führen einige bekannte Fehlermaße ein, die für unsere Theorie maßgeblich sind. Zudem definieren wir eine große Klasse von Testprozeduren, welche üblicherweise zur Kontrolle diverser Fehlerraten eingesetzt werden.

In Kapitel 2 motivieren und definieren wir ein neues Fehlerkriterium, welches auf der erwarteten Anzahl falscher Ablehnungen (engl: expected number of false rejections, kurz ENFR) basiert. Wir untersuchen die ENFR hinsichtlich ungünstigster Parameterkonstellationen. Desweiteren wird der asymptotische Zusammenhang der ENFR mit einer großen Klasse von Testprozeduren untersucht. Abschließend wird ein zentraler Grenzwertsatz für die Anzahl falscher Ablehnung formuliert.

Kapitel 3 widmet sich den Beziehungen und Unterschieden zwischen der ENFR und einem anderen wichtigen Fehlermaß, der sogenannten "False Discovery Rate" (FDR). Unter gewissen Regularitätsbedingungen wird sich zeigen, dass die Kontrolle der ENFR die Kontrolle der FDR impliziert. Zudem kann die Kontrolle der FDR unter Unabhängigkeit auch die Kontrolle der ENFR implizieren. Wir werden jedoch Situationen darlegen, in denen die FDR aber nicht die ENFR kontrolliert wird und umgekehrt.

In Kapitel 4 untersuchen wir das Verhalten der ENFR für verschiedene Prozeduren, welche die FDR für eine feste Anzahl von Nullhypothesen oder asymptotisch kontrollieren.

Kapitel 5 widmet sich der exakten Kontrolle der ENFR zu beliebigen vorgegebenen Schranken. Wir stellen ein rekursives Schema dar, das die exakte Kontrolle der ENFR ermöglicht. Allerdings sind die resultierenden Lösungen im allgemeinen nicht zulässig. Daher wird ein Algorithmus entwickelt, der zulässige Lösungen liefert und gute Ergebnisse bzgl. der exakten Kontrolle zeigt.

Kapitel 6 befasst sich mit einem Fehlermaß, das auf der Anzahl falscher Ablehnungen beruht und ein probabilistisches Gegenstück zur ENFR darstellt. Gewöhnliche Differentialgleichungen werden für die Konstruktion von Prozeduren, welche dieses Fehlermaß kontrollieren, eine wichtige Rolle spielen. Ferner übertragen wir die Resultate auf die "False Discovery Exceedance" (FDX), welche ein probabilistisches Gegenstück zur FDR darstellt.

Kapitel 7 schließt die Dissertation ab mit einem Ausblick über mögliche Ansätze die ENFR unter Abhängigkeit zu kontrollieren.

The invention of computers has a massive impact on our everyday life and the work of scientists. Nowadays, we are able to collect, store, and process a huge amount of data. In order to analyze these data, it is necessary to adapt and extend the classical statistical theory. For instance, today it is possible to measure the expression pattern of all genes (approximately 23.000) from one person at an arbitrary fixed time point. Measuring the expression pattern for 2 groups with 500 persons per group results in approximately 20.000.000 measurements. And of course the aim is not only to state whether the expression pattern between both groups is different but to determine those genes that are differently expressed. From a more abstract point of view, for a set of null hypotheses the aim is to decide which null hypotheses are true and which are false. One part within the multiple testing framework is the development of procedures which make a decision for every single null hypothesis and at the same time control a predefined error criterion. The main topic of this thesis is to introduce a new error criterion and to develop procedures controlling this new criterion.

In Chapter 1 we state the general framework for this thesis and introduce some known error measures which are important for our theory. Additionally, we define a large class of test procedures that are commonly applied to control miscellaneous error rates.

In Chapter 2 we motivate and define a new error criterion based on the expected number of false rejections (ENFR). We investigate the ENFR with respect to least favorable parameter configurations. Furthermore, the asymptotic relations between ENFR and a large class of test procedures are investigated. Finally, a central limit theorem is formulated for the number of false rejections.

Chapter 3 is devoted to relationships and differences between ENFR and another important error measure the so-called false discovery rate (FDR). It turns out that under some regularity conditions control of the ENFR implies control of the FDR. And control of the FDR under independence may also imply control of the ENFR. We also state situations where the FDR is controlled and the ENFR is inflated and vice versa.

In Chapter 4 we investigate the ENFR behavior of different procedures which control the FDR for a finite number of null hypotheses or asymptotically.

Chapter 5 is devoted to exact control of the ENFR for arbitrary bounding functions. We present a recursive scheme that allows exact control of the ENFR. But, in general, the resulting solutions are not feasible. Therefore, an algorithm is developed that yields feasible solutions with good performance with respect to exact control.

Chapter 6 is concerned with an error measure based on the number of false rejections which is a probabilistic counterpart to the ENFR. Ordinary differential equations will play an important role in constructing procedures that asymptotically control this error measure. Moreover, the results are carried over to the false discovery exceedance (FDX), a probabilistic counterpart to the FDR.

Chapter 7 concludes the thesis with an outlook that presents some possible approaches for controlling the ENFR under dependence.
Lizenz:In Copyright
Urheberrechtsschutz
Fachbereich / Einrichtung:Mathematisch- Naturwissenschaftliche Fakultät
Dokument erstellt am:05.02.2013
Dateien geändert am:05.02.2013
Promotionsantrag am:19.04.2012
Datum der Promotion:21.11.2012
english
Benutzer
Status: Gast
Aktionen