Dokument: Designing Representation Learning Applications for Unlabelled Image Data using Visual Foundational Models

Titel:

Designing Representation Learning Applications for Unlabelled Image Data using Visual Foundational Models

Weiterer Titel:

Entwurf von Anwendungen für das Repräsentationslernen auf unmarkierten Bilddaten unter Verwendung von Visual Foundational Models

URL für Lesezeichen:

https://docserv.uni-duesseldorf.de/servlets/DocumentServlet?id=72114

URN (NBN):

urn:nbn:de:hbz:061-20260211-105243-9

Kollektion:

Dissertationen

Sprache:

Englisch

Dokumententyp:

Wissenschaftliche Abschlussarbeiten » Dissertation

Medientyp:

Text

Autor:

Adaloglou, Nikolaos [Autor]

Dateien:

[Dateien anzeigen]	Adobe PDF
[Details]	205,03 MB in einer Datei
[ZIP-Datei erzeugen]
Dateien vom 02.02.2026 / geändert 02.02.2026

Beitragende:

Prof. Dr. Kollmann, Markus [Gutachter]
Prof. Dr. Dickscheid, Timo [Gutachter]

Stichwörter:

computer vision, AI, deep learning, clustering, out-of-distribution-detection,

Dewey Dezimal-Klassifikation:

500 Naturwissenschaften und Mathematik » 570 Biowissenschaften; Biologie

Beschreibungen:

Visual representation learning lies at the core of foundational AI models for computer vision. Current approaches typically involve learning general-purpose representations from large-scale datasets and adapting them to downstream tasks such as image segmentation, generative modeling, and object detection. However, adapting these models to domains with limited or no labeled data remains a major challenge. This manuscript addresses this gap by developing methods that repurpose visual and multi-modal foundational models for tasks where labels are scarce, including image clustering, visual out-of-distribution (OOD) detection, and label-free generative learning.

Detecting anomalous or out-of-distribution samples is essential for ensuring reliability in safety-critical applications. Similarly, image clustering is a longstanding task that, in addition to identifying useful structures in unlabeled data, can serve as an annotation proxy (pseudo-labels). Pseudo-labels can be leveraged in a plethora of follow-up tasks, such as semi-supervised learning. Finally, visual generative learning without labels, known as unconditional image synthesis, can offer useful solutions in fields such as medical imaging, where expert-level annotations are scarce, expensive, and time-consuming.

Towards repurposing foundational models for downstream tasks, this work makes four main contributions. First, it introduces a novel image clustering approach based on pointwise mutual information and presents a large-scale empirical study of clustering methods under challenging data distributions. Second, it proposes multiple strategies for visual OOD detection, utilizing the availability of ground truth labels, label names, or a sufficiently large text corpus with vision-language models. Third, it demonstrates how representation learning can enhance label-free generative modeling by using cluster assignments to improve training efficiency and inference-time control. Finally, it presents a novel sampling method for both conditional and unconditional diffusion models. The introduced method enhances long-range dependencies during sampling, resulting in visually coherent samples with high perceptual quality.

Collectively, the above contributions advance the adaptation of foundational models to visual label-deprived tasks, providing practical solutions for designing robust, data-efficient computer vision systems.

Das visuelle Repräsentationslernen bildet den Kern von KI-Foundation-Modellen für Computer Vision. Aktuelle Ansätze umfassen in der Regel das Lernen allgemeiner Repräsentationen aus großen Datensätzen und deren Anpassung an spezifischere Aufgaben wie Bildsegmentierung, generative Modellierung und Objekterkennung. Die Anpassung dieser Modelle an Bereiche mit begrenzten oder gar keinen annotierten Daten bleibt jedoch eine große Herausforderung. Diese Arbeit befasst sich mit dieser Lücke, indem sie Methoden entwickelt, die visuelle und multimodale Foundation-Modelle für Aufgaben wiederverwenden, bei denen nur wenige Label vorhanden sind, darunter Bild-Clustering, visuelle Out-Of-Distribution (OOD) Erkennung und generatives Lernen ohne Labels.

Die Erkennung anomaler oder OOD Stichproben ist für die Gewährleistung der Zuverlässigkeit in sicherheitskritischen Anwendungen von entscheidender Bedeutung. In ähnlicher Weise ist das Bild-Clustering eine wichtige Aufgabe, die neben der Identifizierung nützlicher Strukturen in nicht annotierten Daten auch als Annotationsproxy (Pseudo Labels) dienen kann. Pseudo Labels können in einer Vielzahl von Folgeaufgaben (downstream tasks), wie zum Beispiel dem halbüberwachten (semi-supervised) Lernen, genutzt werden. Schließlich kann visuelles generatives Lernen ohne Labels (unconditional image synthesis) nützliche Lösungen in Bereichen wie der medizinischen Bildgebung bieten, in denen Annotationen auf Expertenniveau selten, teuer und zeitaufwendig sind.

Im Hinblick auf die Umnutzung von Foundation-Modellen für Folgeaufgaben leistet diese Arbeit vier wesentliche Beiträge. Erstens wird ein neuartiger Ansatz zur Bildclusterung auf der Grundlage punktweiser gegenseitiger Information vorgestellt und eine groß angelegte empirische Studie zu Clustering-Methoden mit herausfordernden Datenverteilungen präsentiert. Zweitens werden mehrere Strategien für die visuelle OOD-Erkennung entwickelt, wobei die Verfügbarkeit von Ground-Truth-Labels, Label-Namen oder einem ausreichend großen Textkorpus mit Bild-Sprach-Modellen genutzt wird. Drittens wird gezeigt, wie das Repräsentationslernen die labelfreie generative Modellierung verbessern kann, indem Clusterzuweisungen zur Verbesserung der Trainingseffizienz und der Steuerung während der Inferenz verwendet werden. Schließlich wird eine neuartige Sampling-Methode für Diffusionsmodelle mit und ohne Konditionen vorgestellt. Die vorgestellte Methode verbessert die globalen Abhängigkeiten während des Samplings und erzeugt visuell kohärente Samples mit hoher wahrgenommene Qualität.

Insgesamt fördern die oben genannten Beiträge die Anpassung von Foundation-Modellen an visuelle Aufgaben ohne Labels und bieten praktische Lösungen für die Entwicklung robuster, dateneffizienter Computer-Vision-Systeme.

Lizenz:

Dieses Werk ist lizenziert unter einer Creative Commons Namensnennung 4.0 International Lizenz

Fachbereich / Einrichtung:

Mathematisch- Naturwissenschaftliche Fakultät

Dokument erstellt am:

11.02.2026

Dateien geändert am:

11.02.2026

Promotionsantrag am:

20.11.2025

Datum der Promotion:

19.01.2026

Heinrich-Heine-Universität Düsseldorf

Dokument: Designing Representation Learning Applications for Unlabelled Image Data using Visual Foundational Models