Information
Allgemeine Informationen
Das Schweizerdeutsche Mundartkorpus (CHMK) dokumentiert die alemannischen Dialekte der Schweiz des 19., 20. und 21. Jahrhunderts und dient als Belegkorpus für die Weiterführung des Wörterbuchs Schweizerisches Idiotikon.
Die Arbeiten am Mundartkorpus wurden im Januar 2019 aufgenommen. Seither wurden mehrere hundert Werke der Mundartliteratur digitalisiert und Mundarttexte aus dem Internet heruntergeladen. Im Rahmen der Digitalisierung wurde eine OCR-Erkennung angewandt. Es kann daher vorkommen, dass Texte OCR-Fehler enthalten. Wir sind bemüht, unsere Systeme laufend zu optimieren und Fehlerquellen zu minimieren.
Das Korpus umfasst bereits über 30 Mio. Textwörter aus über 2900 verschiedenen Quellen (Stand Juli 2023; genauere Korpuszahlen entnehmen Sie bitte dem Abschnitt «Korpusaufbau»).
Textauswahl
Um das Korpus so umfangreich wie möglich zu gestalten, schliessen wir Texte nur dann aus, wenn sie unserer formalen Kriterienliste nicht standhalten:
- Der Text muss in einer identifizierbaren schweizerdeutschen Mundart verfasst sein.
- Der Text beinhaltet rezente Mundart (von 1800 oder jünger).
Es kann vorkommen, dass ein Werk anstössige Passagen oder – aus heutiger Perspektive betrachtet – unzeitgemässe Wortwahlen enthält. Wo es uns bekannt ist, weisen wir in den jeweiligen Trefferdetails auf kontroverse Texte hin. Sollten Ihnen im CHMK weitere Werke mit sexistischen, rassistischen oder anderweitig inakzeptablen Äusserungen auffallen, bitten wir Sie, uns dies per E-Mail mitzuteilen an chmk [ät] idiotikon.ch.
XML-Korpus
Unser Ziel ist es, die gesammelten, digitalisierten und corpuslinguistisch aufbereiteten Werke des Mundartkorpus für die Forschung zugänglich zu machen. Ein Subkorpus mit urheberrechtlich freien Werken kann bereits jetzt als Zip-Datei heruntergeladen werden: CHMK_free_subcorpus_v1.0_index.zip
Geplante Erweiterungen
Das Schweizerdeutsche Mundartkorpus wird laufend um weitere Texte ergänzt. Unter Korpussuche kann es bereits jetzt im Volltext durchsucht werden. Geplant sind des weiteren korpuslinguistische Annotationen auf Wort-Ebene:
- Normalisierung
- Lemmatisierung
- Wortartenannotation (Part-of-Speech-Tagging)
Publikationen
Manuela Weibel, Muriel Peter: "Compiling a Large Swiss German Dialect Corpus" in Proceedings of the 5th Swiss Text Analytics Conference (SwissText) & 16th Conference on Natural Language Processing (KONVENS), Zurich, Switzerland, June 23–25, 2020. (PDF)Hilfe zur Suche
Mithilfe von Filtern können Sie die Texte nach Dialekt, Autor*in, Übersetzer*in, Erstauflagejahr, Publikationsjahr, Werkkategorie oder Gattung filtern. Die Dialektangaben zu einem Werk beziehen sich jeweils auf den Dialekt der Autorin oder des Autors, beziehungsweise bei übersetzten Werken auf den Dialekt der Übersetzerin oder des Übersetzers.
Gewisse Funktionen (Exportfunktion, Anzeige von mehr als 100 Treffern) können Sie nur nutzen, wenn Sie sich mit Benutzernamen anmelden. Ein Verzeichnis sämtlicher abgekürzter Dialektregionen finden Sie hier.
Über das Suchfeld können Sie nach der gewünschten Zeichenabfolge suchen. Die Suchsyntax baut auf der Abfragesprache von DDC auf, wobei die meisten, jedoch nicht ganz alle Möglichkeiten unterstützt werden.
Einige Beispiele für mögliche Korpusabfragen:
Chorb | Findet die Wortform 'Chorb' |
Hahn im Chorb | Findet Treffer mit 'Hahn', 'im' oder 'Chorb' |
"Hahn im Chorb" | Findet die exakte Wortfolge 'Hahn im Chorb' |
Chorb* | Findet 'Chorb', 'Chorbball', 'Chorbware' etc. |
*chorb | Findet 'Chirschichorb', 'Wydlichorb', 'Papierchorb' etc. |
Chorb && !Hahn | Findet Sätze mit 'Chorb', aber ohne 'Hahn' |
Chorb||Hahn | Findet Sätze mit 'Chorb' oder mit 'Hahn' |
Achtung: Gross-/Kleinschreibung wird bei der Suche unterschieden.
Mit regulären Ausdrücken können komplexere Suchabfragen formuliert werden. Die Ausdrücke müssen mit Schrägstrichen umgeben werden. Einige Beispiele für Korpusabfragen mit regulären Ausdrücken:/hun[dg]/ | Findet Treffer, die 'hund' oder 'hung' enthalten |
/^Hun[dg]$/ | Findet Treffer, die mit 'Hund' oder 'Hung' beginnen und enden |
/^[a-zA-Z]{2,5}hun[dg]$/ | Findet Treffer, die auf 'hund' oder 'hung' enden und davor 2–5 (Klein- oder Gross-)Buchstaben haben |
/^mach.$/ | Findet Treffer, die aus 'mach' plus genau einem beliebigen weiteren Zeichen bestehen. |
/^mach.$/ | Findet Treffer, die aus 'mach' plus einem beliebigen weiteren Zeichen bestehen. |
/Glugg?si/ | Findet «Glugsi» und «Gluggsi». |
Funktionen
Bestimmte Inhalte und Funktionen sind nur eingeloggten Nutzerinnen und Nutzern zugänglich.
alle | eingeloggt | |
Volltextsuche | x | x |
Filtersuche | x | x |
Filtern via Karte | x | x |
Suchbeispiele | x | x |
Suche im gesamten Korpus | x | |
Trefferübersicht mit Keyword‑in‑Context | x | x |
Keyword-Detailansicht | x | x |
Erweiterter Kontext * | x | |
Seitenangabe * | x | |
Originalvorschau * | x | |
Permalink * | x | |
Sortierfunktion | x | x |
Treffer-Export | x |
mit * markierte Funktionen nur in Kombination mit «Mehr als 1 Treffer/Dokument»
Korpusaufbau
Übersicht
2962 Werke, darunter 947 Artikel aus insgesamt 85 Sammlungen.
1121 Autor*innen, 143 Übersetzer*innen.
Ca. 30'300'00 Textwörter (Tokens).
Kategorien
Belletristik | 2122 |
journalistischer Text | 468 |
Gebrauchstext | 207 |
Sachtext | 22 |
Keine der oben genannten | 144 |
Gattungen
Prosa | 1677 |
Lyrik (Versform) | 960 |
Drama (Theater) | 226 |
Lyrik/Prosa | 97 |
Drama/Prosa | 2 |
Häufigkeitsverteilung der Werke nach Vierteljahrhundert
(gemessen am Erstauflagedatum – sofern bekannt)
1800–1824 | 33 |
1825–1849 | 53 |
1850–1874 | 57 |
1875–1899 | 101 |
1900–1924 | 222 |
1925–1949 | 248 |
1950–1974 | 278 |
1975–1999 | 554 |
2000–2024 | 1021 |
Kantone
Bern | 1025 |
Basel-Stadt | 312 |
Zürich | 298 |
Graubünden | 190 |
Freiburg | 162 |
Solothurn | 142 |
Basel-Landschaft | 130 |
Aargau | 122 |
St. Gallen | 121 |
Glarus | 89 |
Wallis | 79 |
Luzern | 78 |
Schaffhausen | 56 |
Appenzell Innerrhoden | 45 |
Appenzell Ausserrhoden | 42 |
Thurgau | 42 |
Piemont / Aostatal (IT) | 30 |
Schwyz | 24 |
Uri | 18 |
Obwalden | 15 |
Tessin | 14 |
Zug | 14 |
Nidwalden | 9 |
Mitarbeitende
Wissenschaftliche Mitarbeitende
Sabrina BrändleChristoph Landolt
Lorenz Küchler
Muriel Peter
Tobias Roth
Manuela Weibel
Wissenschaftliche Hilfskräfte
Luca HofmannEric Oechslin
Selina Sprecher
Ehemalige
Hans BickelAlessandra Lötscher
Florian Matter
Für Fragen oder Anmerkungen kontaktieren Sie uns bitte via chmk [ät] idiotikon.ch.