Quantitative Textanalyse (WiSe 24/25)

Fancy Table

Inhalt


Wir leben in einer Welt von "big data", welche auch vor unserer Arbeit als Politikwissenschaftler*innen nicht Halt macht. Jeden Tag begründen politische Akteur*innen ihre Entscheidungen auf verschiedenen Kommunikationskanälen, Institutionen veröffentlichen Policy Reports, und Bürger*innen äußern ihre Meinung in sozialen Medien und in den Kommentarbereichen von Zeitungen. Doch wie können wir diese Datenmengen sinnvoll nutzen?

Dieses Methodenseminar gibt einen Einblick in die quantitative Textanalyse, eine Art der Inhaltsanalyse, welche Texte anhand von numerischen Gemeinsamkeiten untersucht. Dabei werden die Student*innen im Laufe des Seminars lernen, (1) Textdaten von öffentlich zugänglichen Webseiten zu sammeln, (2) das Rohmaterial für verschiedene Analysen vorzubereiten sowie (3) verschiedene Techniken der quantitativen Textanalyse anzuwenden. Dabei werden die Studierenden auch ein Basisverständnis von neueren Entwicklungen der Textanalyse (wie von Transformer oder Large Language Modellen entwickeln). Die einzelnen Sitzungen werden dabei sehr praxisorientiert sein und Studierenden die Möglichkeit geben, ein eigenes Projekt im Rahmen des Seminars zu realisieren. Hierbei werden sie eine eigene Forschungsfrage entwickeln, theoretische Erwartungen formulieren, Forschungsdaten erschließen und eine passende Methode der quantitativen Textanalyse anwenden.

Der Syllabus lässt sich hier herunterladen.
Das Seminar findet wöchentlich am Mittwoch zwischen 16-18 Uhr im Seminarraum SCH 100.107 statt. Student*innen werden gebeten, ihre Laptops mitzubringen.

Materialien

Um den Beispielcode durchlaufen lassen zu können, sollten zuerst die Dateien lokal gespeichert werden und in derselben Dateistruktur ein .Rproj-Datei erstellt werden. Über einen Doppelklick auf das .Rproj-File öffnet sich RStudio, über das das .RMD-File geöffnet werden kann. Eine Kurzanleitung lässt sich bspw. hier finden.

1. Woche: Einführung

Slides

2. und 3. Woche: Crashkurs in R

Slides Code Daten
Slides
Slides (Woche 2)
Einführung (Lösungen)
Einführung (Übungen)
Tutorial (Lösungen)
Tutorial
Allbus 2018
Stopwords
.csv-Testdatei
.xlsx-Testdatei
Daten zu Abgeordneten des Deutschen Bundestags


4. Woche: Was ist quantitative Textanalyse

In dieser Sitzung beschäftigen wir uns mit Konzepten aus der Inhaltsanalyse. Wir werden einen Text manuell analysieren, bevor wir verschiedene Methoden und Gütekriterien der quantitativen Textanalyse kennenlernen.
Slides Code
Einführung in die quantitative Textanalyse Code (US Inauguration Speeches)


5. Woche: Web-Scraping statischer Webseiten

In dieser Woche versuchen wir, Daten von einfachen Webseiten herunterzuladen und in ein für uns nutzbares Dateiformat zu überführen. Bitte installiert im Vorfeld das SelectorGadget für den Browser, welchen ihr normalerweise nutzt. Überlegt euch, welche Website für euch von Interesse sein könnte.
Slides Code
Scraping statischer Webseiten Code (Scraping Einführung)
Übungen (Scraping)
Übungen - Lösungen


6. Woche: Web-Scraping dynamischer Webseiten

In dieser Woche widmen wir uns komplexeren Webseiten, von denen wir überhaupt nicht oder nur teilweise auf den HTML-Code zugreifen können. Bitte stellt hierzu im Vorfeld der Sitzung sicher, dass ihr Java installiert habt und es als Pfad-Variable definiert habt (s. folgende Anleitung).
Slides Code
Scraping dynamischer Webseiten und APIs Code (Scraping dynamischer Webseiten)
Code (APIs)


7. Woche: Datenaufbereitung und Vorbereitung für Analysen

Diese Woche widmet sich der Vorbereitung von einem Datensatz für die Textanalyse. Wir wandeln den Datensatz über verschiedene Schritte in eine Document-Frequency-Matrix um, mithilfe derer wir viele 'bags-of-words'-Analysen in R umsetzen können. Wir lernen dabei auch, welche Tokens wir entfernen können und wie wir wichtige Meta-Informationen zu den Daten in die neuen Datenformate konvertieren können.
Slides Code Daten
Slides Code Manifesto Data


8. Woche: Unsupervised Topic Models

In dieser Sitzung schauen wir uns an, wie wir ohne Input von Forscher*innen Dokumente in verschiedene Themen clustern können. Dabei greifen wir auf das stm-Package von Roberts et al. (2019) zurück.
Slides Code Daten
Slides Code (Einführung)
Code (Übungen)
Code (Lösungen)
Allbus 2008 (Hauptdatensatz)
Allbus 2008 (Codebook)
Allbus 2008 (Offene Angaben)
Allbus 2008 (Codebook Offene Angaben)
Guardian (Media-Corpus)


9. Woche: Scaling

In dieser Woche beschäftigen wir uns mit der Möglichkeit, Texte auf einer eindimensionalen Skala sogenannte Polarity Scores zuzuordnen.
Slides Code Daten
Slides Code (Einführung) Datensatz (Sample)
LSS-Model


10. Woche: Supervised Classification

In dieser Sitzung widmen wir uns zunächst Grundkonzepten des Maschinellen Lernen, bevor wir diese auf einen Textcorpus (vom Manifesto-Project) anwenden.
Slides Code Daten
Slides Code (Einführung)
Übung (Classification)
Übung (Lösungen)
Datensatz (Manifesto Data)
Datensatz für die Übung


11. Woche: Lab Session

Diese Woche ist eine Lab-Session. Zunächst wird kurz über die Erwartungen der Hausarbeit gesprochen, bevor individuelle Probleme (konzeptueller Natur, bzgl. Code, etc.) besprochen werden können.

Formalitäten und Word-Vorlage für die Hausarbeit

12. Woche: Embedding Regression

Wir lernen mit "Embeddings" eine komplexere Art der Repräsentation von Text kennen. Mithilfe des "conText"-Packages in R führen wir einfache deskriptive Analysen sowie eine Embedding-Regression durch. </tr> </table>

13. Woche: Embeddings und Deep Neural Networks

In unserer letzten inhaltlichen Sitzung des Seminars beschäftigen wir uns mit der instrumentellen Funktion von Embeddings für Downstream-Tasks. Wir nutzen Embeddings hierbei, um ein neural network zur Klassifikation von politischem Text zu trainieren.
Slides Code Daten
Slides Code
Datensatz (Manifesto Data)
Embeddings zum Download
</tr> </table>

Slides Code Daten
Slides Code
Datensatz (Manifesto Data)
Embeddings zum Download