Schweizerdeutsches Mundartkorpus

Allgemeine Informationen

Das Schweizerdeutsche Mundartkorpus (CHMK) dokumentiert die alemannischen Dialekte der Schweiz des 19., 20. und 21. Jahrhunderts und dient als Belegkorpus für die Weiterführung des Wörterbuchs Schweizerisches Idiotikon.

Die Arbeiten am Mundartkorpus wurden im Januar 2019 aufgenommen. Seither wurden mehrere hundert Werke der Mundartliteratur digitalisiert und Mundarttexte aus dem Internet heruntergeladen. Das Korpus umfasst bereits über 25 Mio. Textwörter aus über 2400 verschiedenen Quellen (Stand Dezember 2022; genauere Korpuszahlen entnehmen Sie bitte dem Abschnitt «Korpusaufbau»).

Textauswahl

Um das Korpus so umfangreich wie möglich zu gestalten, schliessen wir Texte nur dann aus, wenn sie unserer formalen Kriterienliste nicht standhalten:

  1. Der Text muss in einer identifizierbaren schweizerdeutschen Mundart verfasst sein.
  2. Der Text beinhaltet rezente Mundart (von 1800 oder jünger).

Es kann vorkommen, dass ein Werk anstössige Passagen oder – aus heutiger Perspektive betrachtet – unzeitgemässe Wortwahlen enthält. Wo es uns bekannt ist, weisen wir in den jeweiligen Trefferdetails auf kontroverse Texte hin. Sollten Ihnen im CHMK weitere Werke mit sexistischen, rassistischen oder anderweitig inakzeptablen Äusserungen auffallen, bitten wir Sie, uns dies per E-Mail mitzuteilen an chmk [ät] idiotikon.ch.

Geplante Erweiterungen

Das Schweizerdeutsche Mundartkorpus wird laufend um weitere Texte ergänzt. Unter Korpussuche kann es bereits jetzt im Volltext durchsucht werden. Geplant sind des weiteren korpuslinguistische Annotationen auf Wort-Ebene:

Ein Teilkorpus, das urheberrechtlich freie Texte enthält, soll demnächst im XML-Format für die Forschung frei zugänglich gemacht werden.

Hilfe zur Suche

Mithilfe von Filtern können Sie die Texte nach Dialekt, Autor*in, Übersetzer*in, Erstauflagejahr, Publikationsjahr, Werkkategorie oder Gattung filtern. Die Dialektangaben zu einem Werk beziehen sich jeweils auf den Dialekt der Autorin oder des Autors, beziehungsweise bei übersetzten Werken auf den Dialekt der Übersetzerin oder des Übersetzers.

Über das Suchfeld können Sie nach der gewünschten Zeichenabfolge suchen. Die Suchsyntax baut auf der Abfragesprache von DDC auf, wobei die meisten, jedoch nicht ganz alle Möglichkeiten unterstützt werden.

Einige Beispiele für mögliche Korpusabfragen:

Chorb Findet die Wortform 'Chorb'
Hahn im Chorb Findet Treffer mit 'Hahn', 'im' oder 'Chorb'
"Hahn im Chorb" Findet die exakte Wortfolge 'Hahn im Chorb'
Chorb* Findet 'Chorb', 'Chorbball', 'Chorbware' etc.
*chorb Findet 'Chirschichorb', 'Wydlichorb', 'Papierchorb' etc.
Chorb && !Hahn Findet Sätze mit 'Chorb', aber ohne 'Hahn'

Achtung: Gross-/Kleinschreibung wird bei der Suche unterschieden.

Ein Verzeichnis sämtlicher abgekürzter Dialektregionen finden Sie hier.

Gewisse Funktionen (Exportfunktion, Anzeige von mehr als 100 Treffern) können Sie nur nutzen, wenn Sie sich mit Benutzernamen anmelden.

Korpusaufbau

Übersicht

2439 Werke, darunter 452 Artikel aus insgesamt 45 Sammlungen.
2455 Autor*innen, 75 Übersetzer*innen.
Ca. 25'800'000 Textwörter (Tokens).

Kategorien

Belletristik 1714
journalistischer Text 467
Gebrauchstext 118
Sachtext 20
Keine der oben genannten 120

Gattungen

Prosa 1419
Lyrik (Versform) 711
Drama (Theater) 217
Lyrik/Prosa 91
Drama/Prosa 1

Kantone

Bern 957
Basel-Stadt 254
Zürich 251
Freiburg 159
Graubünden 139
Basel-Landschaft 122
Aargau 109
Solothurn 87
St. Gallen 75
Glarus 66
Wallis 56
Schaffhausen 52
Luzern 51
Appenzell Ausserrhoden 28
Thurgau 25
Piemont / Aostatal (IT) 23
Schwyz 19
Appenzell Innerrhoden 16
Uri 13
Zug 8
Obwalden 6
Nidwalden 3
Tessin 2

Häufigkeitsverteilung der Werke nach Vierteljahrhundert
(gemessen am Erstauflagedatum – sofern bekannt)

1800–1824 18
1825–1849 37
1850–1874 45
1875–1899 68
1900–1924 192
1925–1949 196
1950–1974 137
1975–1999 347
2000–2024 979

Abfrageoberfläche

Entwicklung Abfrageoberfläche: Sabrina Brändle, Florian Matter, Tobias Roth, Manuela Weibel.

Die Abfrageoberfläche baut auf dem Webframework Django unter Python auf und nutzt clientseitig jQuery. Als linguistische Suchmaschine bzw. Indexierlösung wird DDC verwendet.

Zur Digitalisierung und zum Gesamtprojekt sind auf der Projektseite weitere Informationen zu finden. Wir können unter chmk [ät] idiotikon.ch kontaktiert werden.