Tags: Textanalyse, Digitalisierung, Künstliche Intelligenz
Autor/in: Tony
Für diesen Text benötigst du etwa 7 Minuten
Ansätze der Wortschatzkomplexität
Goethe und Schiller. Ohne allzu tief in einen literaturwissenschaftlichen Diskurs zur Qualität beider Autoren einzusteigen, beobachtete ich im Gespräch mit literarisch Versierten und Interessierten, dass es oft eine leichte Präferenz für einen der beiden gibt. Das Ganze oft kombiniert mit einer ebenso leichten Tendenz des völligen Unverständnisses, warum gerade der Andere besser sein sollte. Wenn man in diesem kritischen Moment nicht aufpasst, kann sich das zu einer ausschweifenden zweistündigen Diskussion über metrische Strukturen in Elegien ausweiten. Das möchte niemand. Um dennoch einen Eindruck zu vermitteln, hier einige Argumente kurz zusammengefasst:
„Ahh, Die Metamorphose der Pflanzen … Oh … toll… Sex unter Pflanzen.”
„Schiller ist halt auch ein Autor, der Zeitlebens im Schatten eines Größeren stand.”
„Wo jetzt genau in Faust I das Drama aufhört und die Altherrenphantasie anfängt, ist ja wohl eine Gretchenfrage.” (in Anlehnung an Jan Böhmermanns Video)
„Wohlwollend kann man Kabale und Liebe ja als Aktualisierung eines Romeo und Juliasujets betrachten… Halt nur in schlecht und bürgerlich.”
Wenn man das Ganze ein wenig weniger polemisch betrachtet, stellt man fest, dass beide Autoren (neben ihrer Bedeutung für den Sturm und Drang sowie die Weimarer Klassik) eine kaum zu überschauende Wirkung bis in die Moderne und Postmoderne haben. Plätze, Straßen, Schulen, Universitäten etc. sind beispielsweise nach Goethe oder Schiller benannt.
|
…straße |
…platz |
…park |
…allee |
…gasse |
…ring |
Schiller… |
2232 |
106 |
7 |
9 |
8 |
13 |
Goethe… |
2134 |
74 |
6 |
18 |
0 |
31 |
Beide Autoren sind in den Lehrplänen der Länder zu finden. Marcel Reich-Ranickis verewigte sie mit diversen Werken in seinem Kanon. Und selbst in Umfragen zu Vorbildern geben 13%-15% der Befragten an, dass einer der beiden ein nacheifernswertes Vorbild wäre.
Nun, trotz des Kopf-an-Kopf-Rennens in Umfragen, Straßennamen und literaturwissenschaftlicher Fachdiskussion bleibt die Frage: Gibt es denn innerhalb der Texte einen großen linguistischen Unterschied?
Wissen, wo der h-Punkt ist
Ein Aspekt, der hierbei untersucht werden könnte, wäre die Wortschatzgröße und, damit einhergehend, Vokabulardiversität und lexische Struktur eines Autors. Was einen Wortschatz auszeichnet, ist dabei einfacher, als ihn auch zu messen. Gemeinhin würde man annehmen, dass der Wortschatz sich aus der Gesamtzahl der Wörter ergibt, die eine Person entweder rezeptiv versteht oder produktiv nutzt. Wie dieser, qualitativ gesehen, strukturiert ist, steht dabei auf einem anderen Blatt. Beispielsweise, ob viele Fachwörter, Fremdwörter, Alizismen, Regionalismen, Slangausdrücke oder ähnliches den Wortschatz bestimmen. Übrigens ist das ein Grund, warum der Rapper Haftbefehl im Wortschatzranking knapp hinter Goethe liegt: Er hat einen sehr hohen Anteil an Lehnwörtern aus anderen Sprachen, die bei der Bestimmung eines Wortschatzes ausschlaggebend sind. (Hier erklärt Haftbefehl auch nochmal verschiedene Lehnwörter.)
Und da sieht man schon die ersten Schwierigkeiten, wenn man methodisch ermitteln möchte, wie der Wortschatz einer Person strukturiert ist und wie man beispielsweise die Wortschatzgröße bestimmen will. Allein die Anzahl an Wörtern (Tokens) reicht nicht aus. Und auch die Anzahl der Types ist ein nur eingeschränkter Faktor. Hierzu ein Beispiel aus meiner letzten Konversation:
Wenn man hier Types und Tokens zählt, sieht das so aus:
Megan | Tony | |
Types (Lemmata bzw. unterschiedliche Wörter) |
3 (shut, up, creep) | 12 (hey, du, haben, morgen, Lust, auf, schwimmen, im, See, sollen, gut, Wetter, sein) |
Tokens (alle Wortformen) |
3 (shut, up, creep) | 15 (hey, du, hast, du, morgen, Lust, auf, Schwimmen, im See, morgen, soll, gutes, Wetter, werden) |
Das Ergebnis wäre, dass ich einen Wortschatz von 12 bzw. 15 hätte, meine Chatpartnerin 3… Es ist durchaus unwahrscheinlich, dass anhand dieses Textabschnittes ablesbar ist, dass mein Wortschatz 4x so groß ist. Vielmehr weist das auf ein anderes Problem hin: Nämlich, dass Leute, die sich nicht kurz fassen können (bzw. von denen große Mengen Textmaterial vorliegen), eben deshalb bessere Werte erhalten würden. Eine Möglichkeit, das Ganze zu ändern, wäre daher die lexikalische Vielfalt zu berechnen. Die Idee dahinter ist, zu schauen, wie komplex ein Wortschatz ist. Maße dafür wäre beispielsweise die Type-Token-Ratio (TTR). Diese betrachtet, wie viele Lemmata wie vielen Wortformen gegenüberstehen. Die Idee dahinter ist verhältnismäßig einfach: Man nimmt an, dass ein komplexeres Vokabular sich darin zeigt, dass man öfter unterschiedliche Worte benutzt: Ein Text mit dem Wert 1 würde also bedeuten, dass kein verwendetes Wort sich wiederholt. Je kleiner dieser Wert ist, umso öfter werden Wortformen (Tokens) eines bestimmten Wortstamms (Type) verwendet.
Im oberen Beispiel würde das bedeuten:
Megan hat eine lexikalische diversität von 1 (3 Types / 3 Tokens), ich hingegen von 0,87 (13 Types / 15 Tokens).
Doch auch hier gibt es das Problem, dass bestimmte Wörter in natürlichen Sprachen einfach öfter auftauchen, etwa Präpositionen oder Konjunktionen wie „und”, „in”, „um”, „hinter”, „oder”… (auch aufgrund von mangelnden Synonymen).
Daher entwickelten sich über die Zeit hinweg weitere Maße, die auch textlängenunabhängig lexikalische Vielfältigkeit ausdrücken können. Um nur einige Beispiele zu nennen: MTLD (measure of textual lexical diversity), Guiraud’s Root TTR, Herdan’s C, Mean Segmental Type-Token Ratio, h-Point und weitere… Letzterer gibt übrigens den geometrischen Punkt an, ab welchem ein Text von Synsemantika (oder Funktionswörter) zu autosemantischen Gehalten (Inhaltswörter) übergeht, und ist daher für die Berechnung einer Vielzahl von Indikatoren in der quantitativen Linguistik relevant.
Korpusgrundlage
Um aber auf Goethe und Schiller zurückzukommen: Beide Autoren gelten nicht umsonst als Dichterfürsten. Da sie so unfassbar viel geschrieben haben, hier ein Kurzüberblick, was davon alles in die Analyse mit eingeflossen ist:
Goethe | Schiller |
Dramen Die Laune des Verliebten Die Mitschuldigen Götz von Berlichingen mit der eisernen Hand Prometheus Satyros Götter, Helden und Wieland Ein Fastnachtsspiel vom Pater Brey Das Jahrmarktsfest zu Plundersweilern Erwin und Elmire Claudine von Villa Bella Faust [in ursprünglicher Gestalt] Clavigo Hanswursts Hochzeit Stella Die Geschwister Proserpina Der Triumph der Empfindsamkeit Egmont Iphigenie auf Tauris Torquato Tasso Der Großkophta Der Bürgergeneral Die Aufgeregten Mahomet der Prophet Die natürliche Tochter Faust: Der Tragödie erster Teil Pandora Des Epimenides Erwachen Faust: Der Tragödie zweiter Teil
Romane Die Leiden des jungen Werther Wilhelm Meisters theatralische Sendung Wilhelm Meisters Lehrjahre Die Wahlverwandtschaften Wilhelm Meisters Wanderjahre
Erzählungen Unterhaltungen deutscher Ausgewanderten Briefe aus der Schweiz Novellen
Versepen Der ewige Jude Reineke Fuchs Hermann und Dorothea
Lyrik Gedichte (Ausgabe letzter Hand) Gedichte. Nachlese Xenien und Votivtafeln West-östlicher Divan
Sonstige Aufzeichnungen und Aphorismen Studien zur Ästhetik Studien zu Naturwissenschaft
|
Dramen Die Räuber Die Verschwörung des Fiesco zu Genua Kabale und Liebe Don Karlos, Infant von Spanien Wallenstein Maria Stuart Die Jungfrau von Orleans Die Braut von Messina oder die feindlichen Brüder Wilhelm Tell Die Huldigung der Künste Demetrius Der versöhnte Menschenfeind – Fragment Semele
Erzählungen Der Verbrecher aus verlorener Ehre Spiel des Schicksals Eine großmütige Handlung aus der neuesten Geschichte Geschichten aus dem alten Pitaval Merkwürdiges Beispiel einer weiblichen Rache Der Geisterseher Der Spaziergang unter den Linden
Philosophische Schriften Gedanken über den Gebrauch des Gemeinen und Niedrigen in der Kunst Über Anmuth und Würde Über das Pathetische Über das Erhabene Über den Grund des Vergnügens an tragischen Gegenständen Über den moralischen Nutzen ästhetischer Sitten Über den Zusammenhang der thierischen Natur des Menschen mit seiner geistigen Über die ästhetische Erziehung des Menschen Über die nothwendigen Grenzen beim Gebrauch schöner Formen Zerstreute Betrachtungen über verschiedene ästhetische Gegenstände Philosophische Briefe
Lyrik Gedichte: Gedichte Xenien Rätsel aus Turandot
Sonstige Ankündigung der „Rheinischen Thalia“ Über Bürgers Gedichte Über Egmont, Trauerspiel von Goethe Über Matthissons Gedichte Was kann eine gute stehende Schaubühne eigentlich wirken? Die Horen Über epische und dramatische Dichtung Über naive und sentimentalische Dichtung Brief eines reisenden Dänen Über die tragische Kunst Dom Karlos Briefe über Don Carlos Repertorium des Mannheimer Nationaltheaters Wallensteinischer Theaterkrieg Dramaturgische Preißfragen Die Schaubühne als eine moralische Anstalt betrachtet Kallias oder über die Schönheit Geschichte des dreißigjährigen Kriegs Geschichte des Abfalls der vereinigten Niederlande von der spanischen Regierung Was heißt und zu welchem Ende studiert man Universalgeschichte? Die Gesetzgebung des Lykurgus und Solon Denkwürdigkeiten aus dem Leben des Marschalls von Vieilleville Geschichte der Unruhen in Frankreich, welche der Regierung Heinrichs IV. vorangingen Herzog von Alba bei einem Frühstück auf dem Schlosse zu Rudolstadt, im Jahr 1547 Über Völkerwanderung, Kreuzzüge und Mittelalter Übersicht des Zustands von Europa zur Zeit des ersten Kreuzzugs Universalhistorische Uebersicht der merkwürdigsten Staatsbegebenheiten Etwas über die erste Menschengesellschaft nach dem Leitfaden der mosaischen Urkunde Die Sendung Moses Des Grafen Lamoral von Egmont Leben und Tod Turandot, Prinzessin von China Der Neffe als Onkel Der Parasit Iphigenie in Aulis Macbeth Phaedra (Phèdre) An den Herausgeber der Propyläen Über den Gartenkalender auf das Jahr 1795 Vorrede zu dem ersten Theile der merkwürdigsten Rechtsfälle nach Pitaval Vorrede zu der Geschichte des Maltheserordens nach Vertot von M. N. bearbeitet
|
GOETHE | SCHILLER | ||||||||||||||||||||||||||||||||||||||||
Gesamtlemmata: | 61862 | 48828 | |||||||||||||||||||||||||||||||||||||||
Gesamtwörter: | 1557576 | 1221497 | |||||||||||||||||||||||||||||||||||||||
Verhältnis von Funktionswörtern zu Inhaltswörtern: | 0.5631 | 0.5629 | |||||||||||||||||||||||||||||||||||||||
TTR: | 0.0397 | 0.0399 | |||||||||||||||||||||||||||||||||||||||
MLTD: | 70.3982 | 69.0314 | |||||||||||||||||||||||||||||||||||||||
SSTR: | 0.6827 | 0.6774 | |||||||||||||||||||||||||||||||||||||||
Vocabulary-Richness: | 0.4058 |
0.4379
|
|||||||||||||||||||||||||||||||||||||||
VOCD: | 0.8511 | 0.7830 | |||||||||||||||||||||||||||||||||||||||
Durchschnittlicher Verbabstand: | 7.0491 | 7.6066 | |||||||||||||||||||||||||||||||||||||||
Durchschnittliche Kommata/Satz: | 1,5459 | 1,3076 | |||||||||||||||||||||||||||||||||||||||
Durchschnittliche Satzlänge: |
15,1127 Wörter
|
14,2750 Wörter
|
|||||||||||||||||||||||||||||||||||||||
h-Punkt: | 408.0 |
364.5
|
Und was heißt das alles?
Um Goethe zu verstehen, benötigt man ca. einen Wortschatz von fast 62.000 Lemmata, bei Schiller knapp 49.000. Das mag zunächst einmal nach viel klingen. Bedenkt man aber, dass der aktive Wortschatz im Schnitt bei 12.000 Wörtern und der passive (Wörter die man versteht, ohne sie aktiv zu benutzen) bei 100.000 liegt, relativiert sich das etwas (mehr zu individuellem Wortschatz hier, zu Sprachwortschatz allgemeiner hier). Daraus folgt jedoch nicht zwangsläufig, dass Goethe auch den größeren Wortschatz hat(te), gleichwohl sein Werk auch etwas umfänglicher ist. Denn schaut man sich etwa andere Werte zur Bestimmung der Vokabeldiversität an (TTR, MLTSD, SSTR, VOCD und Vocabulary-Richness), so bemerkt man, dass es dahingehend nahezu keine Unterschiede zwischen den beiden Autoren gibt. Mit einem ganz minimalen Vorsprung für Goethe. Wohl aber lassen sich Unterschiede im Schreibstil erkennen (Verbabstand, Satzlänge, Kommasetzung).
Nun, zumindest weiß ich jetzt, was ich bei der nächsten Diskussion entgegnen kann. Nämlich dass – zumindest linguistisch betrachtet – beide über einen extrem großen und komplexen Wortschatz verfügen, der sich – je nach Messmethode – im Wesentlichen nicht hinsichtlich seiner Struktur unterscheidet. Von daher bleibt mir für die nächste Diskussion wohl doch nichts anderes übrig, als im richtigen Moment das Thema auf etwas Unverfängliches umzulenken. Baden am See beispielsweise und Messmethoden zur Bestimmung von Vokabelreichtum.
Weiterführende Literatur:
Type-Token-Relation Verfügbar unter: http://www.glottopedia.org/ index.php/Type-Token-Relation [15.06.2020]
Jarvis, S. (2013), Capturing the Diversity in Lexical Diversity. Language Learning, 63: 87-106. doi:10.1111/j.1467-9922.2012.00739.x
Mccarthy, P. & Jarvis, S. (2010), MTLD, vocd-D, and HD-D: A validation study of sophisticated approaches to lexical diversity assessment. Behavior research methods. 42. 381-92. doi:10.3758/BRM.42.2.381.