Introduction: Corpora of (modern) German

Eine annotierte Liste von modernen linguistischen Ressourcen

Review Structure

Liste der Quellen

Clemens Ahrens: DWDS-Kernkorpus
Andrei Beliankou: TüBa-D/Z
Juliane Bredack: Deutsches Referenzkorpus (DeReKo)
Pia Chau: TüBa-D/S
Roman Dawidow: DWDS Kernkorpus des 20./21. Jahrhunderts
Katharina Dietz: Wikipedia-Korpus (DeReKo - Tagged C)
Gulchehra Kahhorova: SmartKom
Melanie Kleefisch: DIRNDL-Korpus
Nikola Koczuba:
Christina Lang:
Stephan Lehmler: Alcohol Language Corpus - ALC
Sarah Schneider: TIGER-Baumbank
Ursula Schultze: Deutscher Wortschatz
Julian Stawecki: Falko
Constanze Tress: KiezDeutsch-Korpus (KiDKo)
Jingmin Wang:

DWDS-Kernkorpus

Tüba-D/Z

Materialquelle

z.B. Zeitungstexte

Datum

z.B. 12.2014

Korpusumfang

z.B 70.000 Sätze

Annotationsebenen

z.B. Morphologie, Syntax

Formate

z.B. Folia-XML

Lizenz

z.B. GPL 3

Beispiele

z.B. An/APPR der/ART Oder/NE wurde/VAFIN er/PPER dann/ADV verwendet/VVPP ./$.

Einsatzmöglichkeiten

z.B. Trainieren von statistischen syntaktischen Parsern

DeReKo

Materialquelle

deutschsprachige Textkorpora
belletristische, wissenschaftliche und populärwissenschaftliche Texte, auch Zeitungstexte (vollständig und unveränderte Texte)
mitte 20. Jahrhundert (Texte ab 1956) bis Gegenwart
Korpus ist in eine Menge von Unterkorpora aufgeteilt, weltweit größte Sammlung deutschsprachiger Korpora

Datum

Stand 15.09.2014

Korpusumfang

25 Milliarden Wörter
86 Teilkorpora in 9 Archiven organisiert

Annotationsebenen

morphosyntaktische Annotation
Machinese Phrase Tagger, TreeTagger, Xerox FST

Formate

von Verlagen, Autoren gelieferte Texte in das IDS-Textmodell überführen
große Mengen sehr heterogener Daten in mehreren Arbeitsschritten analysiert und aufwärts konvertiert
Dokumentgrammatik I5
- i5.odd ODD-File mit der TEI P5-Customisierung von I5
- i5.dtd Durch Roma-Stylesheets abgeleitete DTD
- i5.html Durch projekt-spezifisches Stylesheet aus i5.odd abgeleitete HTML-Dokumentation
- i5.xhtml Durch Roma-Stylesheets aus i5.odd abgeleitete HTML-Dokumentation

Lizenz

enthält nur lizenziertes Material
nicht zum Download verfügbar, keine kommerzielle Nutzung, dient ausschließlich zu Forschungszwecken
es bestehen Lizenzverträge zwischen Autoren und Verlagen
alle Korpora IDS-intern und Teile dieser Korpora weltweit öffentlich nutzbar

Beispiele

\par HMP09 Russlands Gasmonopolist {\b Gazprom} pumpt weiter Gas in separaten Pipelines

\par HMP08 PR-Strategie von Apple, mit der es der {\b kalifornische Computerkonzern} schaffte, seinen \par HMP08 schaffte, seinen iPod zum {\b erfolgreichsten Musik-Player} der Welt zu machen.

Einsatzmöglichkeiten

über COSMAS II (Corpus Search Management and Analysis Tool)
komplexe Kollokationsanalysen
linguistische Forschung am IDS
Germanistikforschung
interdisziplinäre Untersuchungen, Fachgebiete Psychologie, Neurologie, Kognitionswissenschaft, Sprachtherapie, Kommunikations- und Medienwissenschaft und Statistik

TüBa-D/S

Materialquelle

spontansprachliche, manuell transliterierte Dialoge

Datum

September 2000

Korpusumfang

ca. 38.000 Sätze bzw. 360.000 Wörter

Annotationsebenen

lexikalische Ebene
phrasale Ebene
Ebene der topologischen Felder
Satzebene

Formate

Negra Export Format (ps)
XML Format
Penn Treebank Format

Beispiele

Einsatzmöglichkeiten

linguistische Forschung

DWDS Kernkorpus des 20./21. Jahrhunderts

Wikipedia-Korpus (DeReKo - Tagged C)

Materialquelle

Wikipedia-Artikel von 2005

Korpusumfang

Texte: 196 854 Wörter: 54 041 081

Annotationsebenen

Liegt im Archiv Tagged-C vor → annotiert durch den Tagger Connexor mit dem Tagset Connexor. Dabei handelt es sich um morphosyntaktische Annotationen Außerdem annotiert durch den TreeTagger (POS) und den Machinese Phrase Tagger (POS)

Formate

Das IDS-Textmodell: i5.odd i5.dtd i5.html i5.xhtml

Lizenz

Keine Herausgabe der Korpustexte, sondern nur Zugriff über CosmasII

Beispiele

WPD   Band 2003 sogar möglich eine Tour durch <B>Japan</> zu machen, wo sie ebenfalls viele Fans

Einsatzmöglichkeiten

Training von Parsern, Linguistische Untersuchungen zu Schriftsprache im Internet, empirische Grundlage für verschiedene linguistische Forschungsarbeiten

SmartKom

DIRNDL-Korpus

...

Alcohol Language Corpus - ALC

Materialquelle

Laboraufnahmen nüchterner und betrunkener Versuchspersonen.

Datum

erste komplette Version: 04.11.2010, letztes Update(version 2.4): 02.12.2014

Korpusumfang

15180 Aufnahmen von 162 Sprechern. Insgesamt 1456556 phonetische Segmente.

Annotationsebenen

Metadaten(Datum, Sprecher, Blutalkoholwert etc.), phonetische Segmentierung, orthografische Transkription, kanonische Aussprache, Fehler/Normabweichungen(Abbrüche, dialektale Merkmale,unverständliche Wörter, Störgeräusche etc.), Kommentare

Formate

BAS Partitur Format,TextGrid, Emu hierarchical database files, Metadaten: SpeechDat, Audio: WAVE RIFF 44100Hz 16bit

Lizenz

COPYRIGHT University of Munich

Beispiele

z.B. die K"ochin mit dem -/#Tufenk/- -/#tu/- -/#topf/- <"ah> -/#Tupfenkoch/- <P> Tupfenkopftuch kocht Karpfen in dem Kupferkochtopf

Einsatzmöglichkeiten

z.B. Automatische Erfassung des Sprecherzustandes; Phonetische oder psycholinguistische Studien

TIGER

Materialquelle

Zeitungstexte der Frankfurter Rundschau

Datum

1999-2004

Korpusumfang

900,000 Tokens, 50,000 Sätze

Annotationsebenen

Wortart, Lemma, Morphosyntax (STTS) Phrasenkategorien: S, NP, VP, … Syntaktische Funktionen: Subjekt, Objekt, Relativsatz, …

Formate

TIGER-XML Format Negra export Format

Lizenz

frei zugänglich Lizenzvereinbarungen: http://www.ims.uni-stuttgart.de/forschung/ressourcen/korpora/TIGERCorpus/license/htmlicense.html

Beispiele

(im TIGER-xml Format)

<terminals>
 <t id="s4228_1" word="In" pos="APPR" />
 <t id="s4228_2" word="Japan" pos="NE" />
 <t id="s4228_3" word="wird" pos="VAFIN" />
 <t id="s4228_4" word="offenbar" pos="ADJD" />
 <t id="s4228_5" word="die" pos="ART" />
 <t id="s4228_6" word="Fusion" pos="NN" />
 <t id="s4228_7" word="der" pos="ART" />
 <t id="s4228_8" word="Geldkonzerne" pos="NN" />
 <t id="s4228_9" word="Daiwa" pos="NE" />
 <t id="s4228_10" word="und" pos="KON" />
 <t id="s4228_11" word="Sumitomo" pos="NE" />
 <t id="s4228_12" word="zur" pos="APPRART" />
 <t id="s4228_13" word="größten" pos="ADJA" />
 <t id="s4228_14" word="Bank" pos="NN" />
 <t id="s4228_15" word="der" pos="ART" />
 <t id="s4228_16" word="Welt" pos="NN" />
 <t id="s4228_17" word="vorbereitet" pos="VVPP" />
 <t id="s4228_18" word="." pos="$." />
</terminals>

 <terminals>
      <t id="s4231_1" word="In" lemma="in" pos="APPR" morph="--" />
      <t id="s4231_2" word="Japan" lemma="Japan" pos="NE" morph="Dat.Sg.Neut" />
      <t id="s4231_3" word="wird" lemma="werden" pos="VAFIN" morph="3.Sg.Pres.Ind" />
      <t id="s4231_4" word="offenbar" lemma="offenbar" pos="ADJD" morph="Pos" />
      <t id="s4231_5" word="die" lemma="der" pos="ART" morph="Nom.Sg.Fem" />
      <t id="s4231_6" word="Fusion" lemma="Fusion" pos="NN" morph="Nom.Sg.Fem" />
      <t id="s4231_7" word="der" lemma="der" pos="ART" morph="Gen.Pl.Masc" />
      <t id="s4231_8" word="Geldkonzerne" lemma="Geldkonzern" pos="NN" morph="Gen.Pl.Masc" />
      <t id="s4231_9" word="Daiwa" lemma="Daiwa" pos="NE" morph="Nom.Sg.*" />
      <t id="s4231_10" word="und" lemma="und" pos="KON" morph="--" />
      <t id="s4231_11" word="Sumitomo" lemma="Sumitomo" pos="NE" morph="Nom.Sg.*" />
      <t id="s4231_12" word="zur" lemma="zu" pos="APPRART" morph="Dat.Sg.Fem" />
      <t id="s4231_13" word="größten" lemma="groß" pos="ADJA" morph="Sup.Dat.Sg.Fem" />
      <t id="s4231_14" word="Bank" lemma="Bank" pos="NN" morph="Dat.Sg.Fem" />
      <t id="s4231_15" word="der" lemma="der" pos="ART" morph="Gen.Sg.Fem" />
      <t id="s4231_16" word="Welt" lemma="Welt" pos="NN" morph="Gen.Sg.Fem" />
      <t id="s4231_17" word="vorbereitet" lemma="vorbereiten" pos="VVPP" morph="Psp" />
      <t id="s4231_18" word="." lemma="--" pos="$." morph="--" />
    </terminals>

Einsatzmöglichkeiten

Deutscher Wortschatz

Materialquelle

Zeitungstexte, Webseiten, Wikipedia

Datum

* Start des Projekts: 1997
* Hochzeit: 2001
* heute abgeschlossen, wird nur noch gepflegt bzw. Material gesammelt

Korpusumfang

Verfügbar sind 233 Korpus-basierte monolinguale Wörterbücher in 219 Sprachen
Beispiele der Korpusgröße verschiedener Sprachen:
| Deutsch             | Englisch            | Französisch           | Spanisch            | Chinesisch            | Okzitansisch (nach 1500) |
|---------------------|---------------------|-----------------------|---------------------|-----------------------|--------------------------|
| Material: 2011      | Material: 2002      | Material: 2012        | Material: 2011      | Material: 2007 - 2009 | Material: 2007           |
| Sätze: 26.142.898   | Sätze: 49.628.893   | Sätze: 74.823.426     | Sätze: 16.899.636   | Sätze: 19.308.704     | Sätze: 16.895            |
| Types: 5.876.655    | Types: 4.785.862    | Types: 7.873.935      | Types: 1.913.986    | Types: 1.295.315      | Types: 44.064            |
| Tokens: 425.703.278 | Tokens: 926.766.504 | Tokens: 1.468.766.604 | Tokens: 391.044.224 | Tokens: 575.138.135   | Tokens: 301.449          |

Annotationsebenen

Wortfrequenzen
Beispielsätze
Kookkurenzen (basierend auf left- und right-neighbours in jeweiligem Satz)
Semantic map-Visualisierung der Kookkurenzen
Synonyme
Dornseiff-Sets (Sachgruppen)

Formate

Online: http://wortschatz.uni-leipzig.de/
PDML (Presentation model description language)

Lizenz

Copyright Leipzig Corpora Collection

Beispiele

Einsatzmöglichkeiten

Nachschlagewerk, kontrastive Linguistik, quantitative Linguistik

Falko

Materialquelle

handschriftlich und digital verfasste Texte von fortgeschrittenen Lernern und Muttersprachlern der deutschen Sprache
Texte: Zusammenfassungen, argumentative Aufsätze
Themen: Feminismus, Entlohnung, Studium, Kriminalität
Muttersprachen L2: über 35, davon die größten Gruppen in Englisch, Französisch, Russisch und Polnisch
Voraussetzungen der Textproduktion: Keine Hilfsmittel, 90 Minuten Bearbeitungszeit

Datum

Beginn der Datenerhebungen (seit 2004)
FALKO Version 1 (18. Oktober 2007)
FALKO Version 2 (26. September 2012)

Korpusumfang

Gesamtkorpus besteht aus 6 Subkorpora (insgesamt 381.447 Tokens)

Lernerkorpus
FalkoSummaryL2 V1.2 (98 Lerner, 107 Texte, 40.923 Tokens)
FalkoEssayL2 V2.3 (186 Lerner, 248 Texte, 122.778 Tokens)
FalkoEssayL2WHIG V2.0 (117.189 Tokens)
Kontrollkorpus Muttersprache
FalkoSummaryL1 V1.2 (33 Muttersprachler, 36 Texte, 21.184 Tokens)
FalkoEssayL1 V2.3 (95 Muttersprachler, 95 Texte, 68.491 Tokens)
Vorlagenkorpus
FalkoSummaryVL (12 Texte, 11.114 Tokens)
Metadaten: Muttersprache, Alter, Geschlecht, akademischer Hintergrund (Schule, Semester, Fach, etc.), Sprachbiografie (beherrschte Fremdsprachen, Zeitraum, Auslandsaufenthalte, etc.)

Annotationsebenen

Wortarten und Lemmata
Zielhypothesen
minimale ZH: nah an Lernerstruktur: Orthographie, Morphosyntax
erweiterte ZH: nah an Lernerintention: Semantik, Pragmatik, Stilistik
Lernerfehler
korrigierte Wortarten
Kommentare des Transkribenten
Es besteht die Möglichkeit weitere Annotationsebenen zu ergänzen und ebenenunabhängig zu bearbeiten (multi-layer stand-off annotation)

Formate

Zugang Online auf: http://korpling.german.hu-berlin.de/falko-suche/ (ANNIS3-Korpus-Suchtool)
Original-Textdokumente
Excel-Tabellen
PAULA-XML

Lizenz

Creative Commons Namensnennung 3.0 Unported Lizenz
Info: https://creativecommons.org/licenses/by/3.0/deed.de

Beispiele

| tok      | Sie      | haben     | sich      | dazu     | gewöhnt   |
| ZH1      | Sie      | haben     | sich      | daran    | gewöhnt   |
| ZH1Diff  |          |           |           | CHA      |           |
| ZH1lemma | Sie/sie  | haben     | er/sie/es | daran    | gewöhnen  |
| ZH1pos   | PPER     | VAFIN     | PRF       | PAV      | VVPP      |

Einsatzmöglichkeiten

Fehleranalyse (Abweichungen von der Zielsprache): Welche Fehler sind lernertypisch? Sind Fehler von der Muttersprache der Lerner abhängig?
Interlinguale kontrastive Untersuchungen: Vergleich von zielsprachlichen Strukturen (Grammatik) in der Zielsprache und der Muttersprache

KiezDeutsch-Korpus (KiDko)

...

Copyright

...

Name		Name	Last commit message	Last commit date
Latest commit History 75 Commits
LICENSE		LICENSE
README.md		README.md

License

stelehm/corpora

Folders and files

Latest commit

History

Repository files navigation

Introduction: Corpora of (modern) German

Table of Contents

Review Structure

Liste der Quellen

DWDS-Kernkorpus

Tüba-D/Z

Materialquelle

Datum

Korpusumfang

Annotationsebenen

Formate

Lizenz

Beispiele

Einsatzmöglichkeiten

DeReKo

Materialquelle

Datum

Korpusumfang

Annotationsebenen

Formate

Lizenz

Beispiele

Einsatzmöglichkeiten

TüBa-D/S

Materialquelle

Datum

Korpusumfang

Annotationsebenen

Formate

Beispiele

Einsatzmöglichkeiten

DWDS Kernkorpus des 20./21. Jahrhunderts

Wikipedia-Korpus (DeReKo - Tagged C)

Materialquelle

Korpusumfang

Annotationsebenen

Formate

Lizenz

Beispiele

Einsatzmöglichkeiten

SmartKom

DIRNDL-Korpus

...

...

...

Alcohol Language Corpus - ALC

Materialquelle

Datum

Korpusumfang

Annotationsebenen

Formate

Lizenz

Beispiele

Einsatzmöglichkeiten

TIGER

Materialquelle

Datum

Korpusumfang

Annotationsebenen

Formate

Lizenz

Beispiele

Einsatzmöglichkeiten

Deutscher Wortschatz

Materialquelle

Datum

Korpusumfang

Annotationsebenen

Formate

Lizenz

Beispiele

Einsatzmöglichkeiten

Falko

Materialquelle

Packages