Dokument: Building confound-free and generalizable machine learning workflows with neuroimaging data

Titel:Building confound-free and generalizable machine learning workflows with neuroimaging data
URL für Lesezeichen:https://docserv.uni-duesseldorf.de/servlets/DocumentServlet?id=66453
URN (NBN):urn:nbn:de:hbz:061-20240813-104250-0
Kollektion:Dissertationen
Sprache:Englisch
Dokumententyp:Wissenschaftliche Abschlussarbeiten » Dissertation
Medientyp:Text
Autor: More, Shammi [Autor]
Dateien:
[Dateien anzeigen]Adobe PDF
[Details]848,4 KB in einer Datei
[ZIP-Datei erzeugen]
Dateien vom 01.08.2024 / geändert 01.08.2024
Beitragende:Prof. Dr. med. Eickhoff, Simon B. [Gutachter]
PD Caspers, Julian [Gutachter]
Prof. Hahn, Tim [Gutachter]
Stichwörter:Machine learning workflow design, confounds, feature spaces, age prediction, sex classification, MRI preprocessing tools
Dewey Dezimal-Klassifikation:600 Technik, Medizin, angewandte Wissenschaften » 610 Medizin und Gesundheit
Beschreibungen:Die Magnetresonanztomographie ist ein leistungsfähiges bildgebendes Verfahren zur Untersuchung der Gehirnstruktur und -funktion, das unser Verständnis der normalen Gehirnfunktion sowie der zugrunde liegenden Mechanismen neurologischer und psychiatrischer Störungen verbessert. Techniken des maschinellen Lernens (ML) werden zunehmend mit Neuroimaging-Daten für die klinische Versorgung und die Forschung eingesetzt. ML-Arbeitsabläufe sind jedoch anfällig für Fehler, wie z. B. Überanpassung und verzerrte Ergebnisse, die zu falschen Interpretationen und Entscheidungen führen können. Daher müssen ML-Arbeitsabläufe sorgfältig konzipiert werden. In der vorliegenden Arbeit wurden zwei Schlüsselkomponenten des ML-Arbeitsablaufsdesign systematisch bewertet, die für die Entwicklung unvoreingenommener und verallgemeinerbarer ML-Modelle unerlässlich sind. Der erste Aspekt ist die effektive Beseitigung von Störsignalen, die für die Erstellung von unverfälschten Modellen ohne Störfaktoren wichtig ist. Der zweite Aspekt ist die Verwendung verschiedener Merkmalsräume und ML-Algorithmen für eine gegebene Aufgabe, um ein verallgemeinerbares Modell zu finden, sowie die Auswirkungen verschiedener Vorverarbeitungsentscheidungen auf die extrahierten Merkmale und die Modellleistung. In Studie 1 untersuchten wir zwei Confound-Regressionstechniken zur Abschwächung von Störsignalen in einem ML-Arbeitsablauf für die Aufgabe der Geschlechtsvorhersage unter Verwendung von Daten aus der funktionellen Magnetresonanztomographie im Ruhezustand. Wir fanden heraus, dass die Durchführung einer Confound-Regression im Rahmen einer Kreuzvalidierung bei der Confound-Regression wirksam war und eine bessere Schätzung der Generalisierungsleistung ergab als die Confound-Regression für die gesamten Daten. In Studie 2 untersuchten wir den Einfluss verschiedener Merkmalsräume, die aus strukturellen Magnetresonanztomographie-Daten (Volumen der grauen Substanz) und ML-Algorithmen abgeleitet wurden, auf die Leistung und Generalisierbarkeit der Altersvorhersage. Wir stellten fest, dass die Merkmalsräume und ML-Algorithmen einen erheblichen Einfluss auf die Vorhersageleistung haben, ebenso wie die Vorverarbeitungsalternativen und Merkmale aus verschiedenen Gewebetypen. Das Gehirn-Alter-Delta war bei neurodegenerativen Erkrankungen erhöht. Im Anschluss an Studie 2 wurde in Studie 3 die Auswirkung verschiedener Vorverarbeitungsalternativen auf die Schätzung des Volumens der grauen Substanz bewertet, wobei die verschiedenen Pipelines unterschiedliche Altersvorhersageleistungen erbrachten. Studie 4 schließlich umfasste eine systematische Überprüfung bestehender psychometrischer Vorhersagestudien, wobei Trends in diesem Bereich aufgezeigt und große Kohorten sowie eine externe Validierung empfohlen wurden. Insgesamt unterstreichen unsere Ergebnisse die Bedeutung einer sorgfältigen Implementierung in jedem Schritt des ML-Arbeitsabläufe und empfehlen die Anwendung von Confound-Regression und eines Vorverarbeitungsschritts innerhalb der Kreuzvalidierung, die Erforschung verschiedener Merkmalsräume und ML-Algorithmen, die Verwendung großer Trainingskohorten zur Entwicklung optimaler und verallgemeinerbarer Arbeitsabläufe und die Durchführung einer externen Validierung.

Magnetic resonance imaging (MRI) is a powerful neuroimaging technique to study brain structure and function, advancing our understanding of normal brain function as well as the underlying mechanisms of neurological and psychiatric disorders. Machine learning (ML) techniques have been increasingly used with neuroimaging data for clinical care and research. However, ML workflows are prone to errors, such as overfitting and biased outcomes, which can lead to wrong interpretations and conclusions. Hence, there is a need for careful designing of ML workflows. The current work systematically evaluated several key components of ML workflow design, essential for developing unbiased and generalizable ML models. The first aspect is the effective removal of confounding signals, which is important for creating confound-free unbiased models. The second aspect is the usage of different feature spaces and ML algorithms for a given task to find a generalizable model—additionally, the impact of various preprocessing choices on extracted features and model performance. In study 1, we investigated two confound regression techniques to mitigate confounding signals in an ML workflow for the sex prediction task using resting-state functional MRI data. We found that performing confound regression within cross-validation (CV) was effective in confound removal and gave a better generalization performance estimate than whole-data confound regression. In study 2, we assessed the impact of different feature spaces derived from structural MRI data (gray matter volume; GMV) and ML algorithms on age prediction performance and generalizability. We found a substantial impact of feature spaces and ML algorithms on prediction performance, along with an impact of preprocessing alternatives and features from different tissue types. Brain-age delta was elevated in neurodegenerative disease. Following study 2, in study 3, the impact of several preprocessing alternatives on GMV estimates was assessed, revealing varying age prediction performance from different pipelines. Lastly, study 4 involved a systematic review of existing psychometric prediction studies, highlighting trends in the field and advocating for large cohorts and external validation. Overall, our findings emphasize the importance of careful implementation at each step of ML workflow, recommending applying confound removal and any preprocessing step within CV, exploring various feature spaces and ML algorithms, utilizing large training cohorts for developing optimal and generalizable workflows, and performing external validation.
Lizenz:Creative Commons Lizenzvertrag
Dieses Werk ist lizenziert unter einer Creative Commons Namensnennung 4.0 International Lizenz
Fachbereich / Einrichtung:Medizinische Fakultät
Dokument erstellt am:13.08.2024
Dateien geändert am:13.08.2024
Promotionsantrag am:21.12.2023
Datum der Promotion:26.07.2024
english
Benutzer
Status: Gast
Aktionen