Dokument: Dialectal Arabic processing Using Deep Learning

Titel:Dialectal Arabic processing Using Deep Learning
URL für Lesezeichen:https://docserv.uni-duesseldorf.de/servlets/DocumentServlet?id=44655
URN (NBN):urn:nbn:de:hbz:061-20180118-084822-9
Kollektion:Dissertationen
Sprache:Englisch
Dokumententyp:Wissenschaftliche Abschlussarbeiten » Dissertation
Medientyp:Text
Autor:MA. Samih, Younes [Autor]
Dateien:
[Dateien anzeigen]Adobe PDF
[Details]1,85 MB in einer Datei
[ZIP-Datei erzeugen]
Dateien vom 17.01.2018 / geändert 17.01.2018
Beitragender:Prof. Dr. Laura Kallmeyer [Gutachter]
Stichwörter:Dialectal Arabic, Deep learning, Code-switching, Word Segmentation, Social Media
Dewey Dezimal-Klassifikation:400 Sprache » 410 Linguistik
Beschreibungen:In the last few years, the advent of the phenomena of social media and the ubiquity of the internet access have created an unprecedented deluge of information and textual data on the world wide web. This data brings in its wake new opportunities and poses many challenges for machine learning and Natural Language Processing ( NLP ) in particular. The sheer size, non-standard spelling, the poor quality, the informality, and the noise of this data, presents new challenges to standard NLP tools developed for traditional data. To make sense out of such data and exploit its value, novel NLP methods, resources, and efficient algorithms beyond rule-based deductive reasoning and "traditional" system engineering need to be created. Given the groundbreaking results of Deep Learning ( DL ) models in solving hard natural language processing tasks, I argue in this dissertation that these models are well suited for processing social Media textual data. A case in point is Dialectal Arabic ( DA ) which is emerging as the language of informal communication on the web, in emails, Social Media platforms, blogs, etc. To systematically investigate the ability of DL models to process the less controlled and more speech-like nature of DA in Social Media, I choose to address two concrete, challenging tasks, namely linguistic Code-Switching ( CS ) identification and DA morphological segmentation.

In den letzten Jahren ist durch die sozialen Medien und allgegenwärtigen Zugang zum Internet eine noch nie dagewesene Flut von Information und Textdaten im Internet entstanden. Diese Daten bringen neue Chancen und vielfältige Herausforderungen im Bereich des machinellen Lernens, und in besondere in der maschinellen Sprachverarbeitung NLP . Die schiere Menge, nicht den gewohnten Normen entsprechende Rechtschreibung, die schlechte Qualität und Informalität, und das Rauschen in den Daten stellen die NLP-Standardwerkzeuge, die auf traditionellen Daten entwickelt worden sind, vor neue Probleme. Um solche Daten interpretieren und ihren Wert nutzen zu können, müssen neue NLP-Methoden, Resourcen und effiziente Algorithmen jenseits von regelbasiertem dekutiven Herangehensweisen und "traditionellen"Methoden
der Systementwicklung geschaffen werden. Im Licht der bahnbrechenden Ergebnisse von Modellen des Deep Learning ( DL ) argumentiere ich in dieser Dissertation, dass solche Modelle gut zur Verarbeitung von Text aus sozialen Medien geeignet sind. Als Beispielfall dient das Dialectal Arabic ( DA ), das sich zur Sprache der informellen Kommunikation im Web, in E-Mails, auf sozialen Medien, und in Blogs entwickelt hat. Um die Möglichkeiten von DL-Modellen zu zeigen, das weniger kontrollierte und der gesprochenen Sprache ähnliche DA in sozialen Medien zu verarbeiten, bearbeite ich zwei konkrete, herausfordernde Probleme, und zwar die Identifikation von linguistischem Code-Switching ( CS ) und die morphologische Segmentierung von DA.
Lizenz:In Copyright
Urheberrechtsschutz
Fachbereich / Einrichtung:Philosophische Fakultät » Institut für Sprache und Information » Computerlinguistik
Dokument erstellt am:18.01.2018
Dateien geändert am:18.01.2018
Datum der Promotion:28.11.2017
english
Benutzer
Status: Gast
Aktionen