Automatisierte Textanalyse

Automatisierte Textanalyse ist die Analyse digitaler Texte mit Hilfe von Computerprogrammen. Dabei handelt es sich um eine Vorgehensweise, die im Zusammenhang mit der Entwicklung der digitalen Geisteswissenschaften zuerst von der Literarturwissenschaft entwickelt wurde. Zentral für den Ansatz automatisierter Textanalyse ist das von dem an der Stanford University lehrenden Literaturwissenschaftler Franco Moretti entwickelte Konzept des “distant reading”. Es stellt schon vom Begriff her einen Kontrast zur traditionellen philologisch-literaturkritischen Technik des genauen Lesens (des “close reading”) dar, die auf intensive Beschäftigung und Interpretation eines kurzen Textes oder Textausschnitts zielt. „Distant reading“ ermöglicht die Analyse großer Textmengen in kurzer Zeit. Vor allem in Kombination mit bekannten Strategien des „close reading“, werden neue Forschungsperspektiven eröffnet.

Wie funktioniert automatisierte Textanalyse?

Grundlage jeder Textanalyse ist ein Konvolut aus maschinenlesbaren Texten – das Korpus. Aus einem Lehr-Forschungs-Projekt am Lehrstuhl für Vgl. Politikwissenschaft und Politische Ökonomie ist im Sommersemester 2016 ein Korpus aus Regierungserklärungen von 1949-2013 entstanden. Das Korpus gibt es hier zum Download:

Korpus Regierungserklärungen

Analyse der Regierungserklärungen

So geht das Einlesen des Korpus mit R und dem Paket quanteda.

library(quanteda)
library(readtext)
Regierungserklaerungen <- readtext("*.txt", encoding="UTF-8", docvarsfrom="filenames", dvsep="-", docvarnames= c("Jahr", "Kanzler", "Partei"))
RegKorpus <- corpus(Regierungserklaerungen)
Regdfm <- dfm(RegKorpus, stem=FALSE, groups="doc_id")