Skip to content
forked from arbox/corpora

Eine annotierte Liste von modernen linguistischen Ressourcen

License

Notifications You must be signed in to change notification settings

stelehm/corpora

 
 

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

75 Commits
 
 
 
 

Repository files navigation

Introduction: Corpora of (modern) German

Eine annotierte Liste von modernen linguistischen Ressourcen

Table of Contents

Review Structure

Liste der Quellen

  • Clemens Ahrens: DWDS-Kernkorpus
  • Andrei Beliankou: TüBa-D/Z
  • Juliane Bredack: Deutsches Referenzkorpus (DeReKo)
  • Pia Chau: TüBa-D/S
  • Roman Dawidow: DWDS Kernkorpus des 20./21. Jahrhunderts
  • Katharina Dietz: Wikipedia-Korpus (DeReKo - Tagged C)
  • Gulchehra Kahhorova: SmartKom
  • Melanie Kleefisch: DIRNDL-Korpus
  • Nikola Koczuba:
  • Christina Lang:
  • Stephan Lehmler: Alcohol Language Corpus - ALC
  • Sarah Schneider: TIGER-Baumbank
  • Ursula Schultze: Deutscher Wortschatz
  • Julian Stawecki: Falko
  • Constanze Tress: KiezDeutsch-Korpus (KiDKo)
  • Jingmin Wang:

DWDS-Kernkorpus

Tüba-D/Z

Materialquelle

z.B. Zeitungstexte

Datum

z.B. 12.2014

Korpusumfang

z.B 70.000 Sätze

Annotationsebenen

z.B. Morphologie, Syntax

Formate

z.B. Folia-XML

Lizenz

z.B. GPL 3

Beispiele

z.B. An/APPR der/ART Oder/NE wurde/VAFIN er/PPER dann/ADV verwendet/VVPP ./$.

Einsatzmöglichkeiten

z.B. Trainieren von statistischen syntaktischen Parsern

DeReKo

Materialquelle

  • deutschsprachige Textkorpora
  • belletristische, wissenschaftliche und populärwissenschaftliche Texte, auch Zeitungstexte (vollständig und unveränderte Texte)
  • mitte 20. Jahrhundert (Texte ab 1956) bis Gegenwart
  • Korpus ist in eine Menge von Unterkorpora aufgeteilt, weltweit größte Sammlung deutschsprachiger Korpora

Datum

Stand 15.09.2014

Korpusumfang

  • 25 Milliarden Wörter
  • 86 Teilkorpora in 9 Archiven organisiert

Annotationsebenen

  • morphosyntaktische Annotation
  • Machinese Phrase Tagger, TreeTagger, Xerox FST

Formate

  • von Verlagen, Autoren gelieferte Texte in das IDS-Textmodell überführen
  • große Mengen sehr heterogener Daten in mehreren Arbeitsschritten analysiert und aufwärts konvertiert
  • Dokumentgrammatik I5
    • i5.odd ODD-File mit der TEI P5-Customisierung von I5
    • i5.dtd Durch Roma-Stylesheets abgeleitete DTD
    • i5.html Durch projekt-spezifisches Stylesheet aus i5.odd abgeleitete HTML-Dokumentation
    • i5.xhtml Durch Roma-Stylesheets aus i5.odd abgeleitete HTML-Dokumentation

Lizenz

  • enthält nur lizenziertes Material
  • nicht zum Download verfügbar, keine kommerzielle Nutzung, dient ausschließlich zu Forschungszwecken
  • es bestehen Lizenzverträge zwischen Autoren und Verlagen
  • alle Korpora IDS-intern und Teile dieser Korpora weltweit öffentlich nutzbar

Beispiele

\par HMP09 Russlands Gasmonopolist {\b Gazprom} pumpt weiter Gas in separaten Pipelines

\par HMP08 PR-Strategie von Apple, mit der es der {\b kalifornische Computerkonzern} schaffte, seinen \par HMP08 schaffte, seinen iPod zum {\b erfolgreichsten Musik-Player} der Welt zu machen.

Einsatzmöglichkeiten

  • über COSMAS II (Corpus Search Management and Analysis Tool)
  • komplexe Kollokationsanalysen
  • linguistische Forschung am IDS
  • Germanistikforschung
  • interdisziplinäre Untersuchungen, Fachgebiete Psychologie, Neurologie, Kognitionswissenschaft, Sprachtherapie, Kommunikations- und Medienwissenschaft und Statistik

TüBa-D/S

Materialquelle

spontansprachliche, manuell transliterierte Dialoge

Datum

September 2000

Korpusumfang

ca. 38.000 Sätze bzw. 360.000 Wörter

Annotationsebenen

  • lexikalische Ebene
  • phrasale Ebene
  • Ebene der topologischen Felder
  • Satzebene

Formate

  • Negra Export Format (ps)
  • XML Format
  • Penn Treebank Format

Beispiele

Einsatzmöglichkeiten

linguistische Forschung

DWDS Kernkorpus des 20./21. Jahrhunderts

Wikipedia-Korpus (DeReKo - Tagged C)

Materialquelle

Wikipedia-Artikel von 2005

Korpusumfang

Texte: 196 854 Wörter: 54 041 081

Annotationsebenen

Liegt im Archiv Tagged-C vor → annotiert durch den Tagger Connexor mit dem Tagset Connexor. Dabei handelt es sich um morphosyntaktische Annotationen Außerdem annotiert durch den TreeTagger (POS) und den Machinese Phrase Tagger (POS)

Formate

Das IDS-Textmodell: i5.odd i5.dtd i5.html i5.xhtml

Lizenz

Keine Herausgabe der Korpustexte, sondern nur Zugriff über CosmasII

Beispiele

WPD   Band 2003 sogar möglich eine Tour durch <B>Japan</> zu machen, wo sie ebenfalls viele Fans

Einsatzmöglichkeiten

Training von Parsern, Linguistische Untersuchungen zu Schriftsprache im Internet, empirische Grundlage für verschiedene linguistische Forschungsarbeiten

SmartKom

DIRNDL-Korpus

...

...

...

Alcohol Language Corpus - ALC

Materialquelle

Laboraufnahmen nüchterner und betrunkener Versuchspersonen.

Datum

erste komplette Version: 04.11.2010, letztes Update(version 2.4): 02.12.2014

Korpusumfang

15180 Aufnahmen von 162 Sprechern. Insgesamt 1456556 phonetische Segmente.

Annotationsebenen

Metadaten(Datum, Sprecher, Blutalkoholwert etc.), phonetische Segmentierung, orthografische Transkription, kanonische Aussprache, Fehler/Normabweichungen(Abbrüche, dialektale Merkmale,unverständliche Wörter, Störgeräusche etc.), Kommentare

Formate

BAS Partitur Format,TextGrid, Emu hierarchical database files, Metadaten: SpeechDat, Audio: WAVE RIFF 44100Hz 16bit

Lizenz

COPYRIGHT University of Munich

Beispiele

z.B. die K"ochin mit dem -/#Tufenk/- -/#tu/- -/#topf/- <"ah> -/#Tupfenkoch/- <P> Tupfenkopftuch kocht Karpfen in dem Kupferkochtopf

Einsatzmöglichkeiten

z.B. Automatische Erfassung des Sprecherzustandes; Phonetische oder psycholinguistische Studien

TIGER

Materialquelle

Zeitungstexte der Frankfurter Rundschau

Datum

1999-2004

Korpusumfang

900,000 Tokens, 50,000 Sätze

Annotationsebenen

Wortart, Lemma, Morphosyntax (STTS) Phrasenkategorien: S, NP, VP, … Syntaktische Funktionen: Subjekt, Objekt, Relativsatz, …

Formate

TIGER-XML Format Negra export Format

Lizenz

frei zugänglich Lizenzvereinbarungen: http://www.ims.uni-stuttgart.de/forschung/ressourcen/korpora/TIGERCorpus/license/htmlicense.html

Beispiele

(im TIGER-xml Format)

<terminals>
 <t id="s4228_1" word="In" pos="APPR" />
 <t id="s4228_2" word="Japan" pos="NE" />
 <t id="s4228_3" word="wird" pos="VAFIN" />
 <t id="s4228_4" word="offenbar" pos="ADJD" />
 <t id="s4228_5" word="die" pos="ART" />
 <t id="s4228_6" word="Fusion" pos="NN" />
 <t id="s4228_7" word="der" pos="ART" />
 <t id="s4228_8" word="Geldkonzerne" pos="NN" />
 <t id="s4228_9" word="Daiwa" pos="NE" />
 <t id="s4228_10" word="und" pos="KON" />
 <t id="s4228_11" word="Sumitomo" pos="NE" />
 <t id="s4228_12" word="zur" pos="APPRART" />
 <t id="s4228_13" word="größten" pos="ADJA" />
 <t id="s4228_14" word="Bank" pos="NN" />
 <t id="s4228_15" word="der" pos="ART" />
 <t id="s4228_16" word="Welt" pos="NN" />
 <t id="s4228_17" word="vorbereitet" pos="VVPP" />
 <t id="s4228_18" word="." pos="$." />
</terminals>

 <terminals>
      <t id="s4231_1" word="In" lemma="in" pos="APPR" morph="--" />
      <t id="s4231_2" word="Japan" lemma="Japan" pos="NE" morph="Dat.Sg.Neut" />
      <t id="s4231_3" word="wird" lemma="werden" pos="VAFIN" morph="3.Sg.Pres.Ind" />
      <t id="s4231_4" word="offenbar" lemma="offenbar" pos="ADJD" morph="Pos" />
      <t id="s4231_5" word="die" lemma="der" pos="ART" morph="Nom.Sg.Fem" />
      <t id="s4231_6" word="Fusion" lemma="Fusion" pos="NN" morph="Nom.Sg.Fem" />
      <t id="s4231_7" word="der" lemma="der" pos="ART" morph="Gen.Pl.Masc" />
      <t id="s4231_8" word="Geldkonzerne" lemma="Geldkonzern" pos="NN" morph="Gen.Pl.Masc" />
      <t id="s4231_9" word="Daiwa" lemma="Daiwa" pos="NE" morph="Nom.Sg.*" />
      <t id="s4231_10" word="und" lemma="und" pos="KON" morph="--" />
      <t id="s4231_11" word="Sumitomo" lemma="Sumitomo" pos="NE" morph="Nom.Sg.*" />
      <t id="s4231_12" word="zur" lemma="zu" pos="APPRART" morph="Dat.Sg.Fem" />
      <t id="s4231_13" word="größten" lemma="groß" pos="ADJA" morph="Sup.Dat.Sg.Fem" />
      <t id="s4231_14" word="Bank" lemma="Bank" pos="NN" morph="Dat.Sg.Fem" />
      <t id="s4231_15" word="der" lemma="der" pos="ART" morph="Gen.Sg.Fem" />
      <t id="s4231_16" word="Welt" lemma="Welt" pos="NN" morph="Gen.Sg.Fem" />
      <t id="s4231_17" word="vorbereitet" lemma="vorbereiten" pos="VVPP" morph="Psp" />
      <t id="s4231_18" word="." lemma="--" pos="$." morph="--" />
    </terminals>

Einsatzmöglichkeiten

Deutscher Wortschatz

Materialquelle

Zeitungstexte, Webseiten, Wikipedia

Datum

* Start des Projekts: 1997
* Hochzeit: 2001
* heute abgeschlossen, wird nur noch gepflegt bzw. Material gesammelt

Korpusumfang

Verfügbar sind 233 Korpus-basierte monolinguale Wörterbücher in 219 Sprachen
Beispiele der Korpusgröße verschiedener Sprachen:
| Deutsch             | Englisch            | Französisch           | Spanisch            | Chinesisch            | Okzitansisch (nach 1500) |
|---------------------|---------------------|-----------------------|---------------------|-----------------------|--------------------------|
| Material: 2011      | Material: 2002      | Material: 2012        | Material: 2011      | Material: 2007 - 2009 | Material: 2007           |
| Sätze: 26.142.898   | Sätze: 49.628.893   | Sätze: 74.823.426     | Sätze: 16.899.636   | Sätze: 19.308.704     | Sätze: 16.895            |
| Types: 5.876.655    | Types: 4.785.862    | Types: 7.873.935      | Types: 1.913.986    | Types: 1.295.315      | Types: 44.064            |
| Tokens: 425.703.278 | Tokens: 926.766.504 | Tokens: 1.468.766.604 | Tokens: 391.044.224 | Tokens: 575.138.135   | Tokens: 301.449          |

Annotationsebenen

  • Wortfrequenzen
  • Beispielsätze
  • Kookkurenzen (basierend auf left- und right-neighbours in jeweiligem Satz)
  • Semantic map-Visualisierung der Kookkurenzen
  • Synonyme
  • Dornseiff-Sets (Sachgruppen)

Formate

Lizenz

Copyright Leipzig Corpora Collection

Beispiele

Einsatzmöglichkeiten

Nachschlagewerk, kontrastive Linguistik, quantitative Linguistik

Falko

Materialquelle

  • handschriftlich und digital verfasste Texte von fortgeschrittenen Lernern und Muttersprachlern der deutschen Sprache
  • Texte: Zusammenfassungen, argumentative Aufsätze
  • Themen: Feminismus, Entlohnung, Studium, Kriminalität
  • Muttersprachen L2: über 35, davon die größten Gruppen in Englisch, Französisch, Russisch und Polnisch
  • Voraussetzungen der Textproduktion: Keine Hilfsmittel, 90 Minuten Bearbeitungszeit

Datum

  • Beginn der Datenerhebungen (seit 2004)
  • FALKO Version 1 (18. Oktober 2007)
  • FALKO Version 2 (26. September 2012)

Korpusumfang

Gesamtkorpus besteht aus 6 Subkorpora (insgesamt 381.447 Tokens)

  • Lernerkorpus
  • FalkoSummaryL2 V1.2 (98 Lerner, 107 Texte, 40.923 Tokens)
  • FalkoEssayL2 V2.3 (186 Lerner, 248 Texte, 122.778 Tokens)
  • FalkoEssayL2WHIG V2.0 (117.189 Tokens)
  • Kontrollkorpus Muttersprache
  • FalkoSummaryL1 V1.2 (33 Muttersprachler, 36 Texte, 21.184 Tokens)
  • FalkoEssayL1 V2.3 (95 Muttersprachler, 95 Texte, 68.491 Tokens)
  • Vorlagenkorpus
  • FalkoSummaryVL (12 Texte, 11.114 Tokens)
  • Metadaten: Muttersprache, Alter, Geschlecht, akademischer Hintergrund (Schule, Semester, Fach, etc.), Sprachbiografie (beherrschte Fremdsprachen, Zeitraum, Auslandsaufenthalte, etc.)

Annotationsebenen

  • Wortarten und Lemmata
  • Zielhypothesen
  • minimale ZH: nah an Lernerstruktur: Orthographie, Morphosyntax
  • erweiterte ZH: nah an Lernerintention: Semantik, Pragmatik, Stilistik
  • Lernerfehler
  • korrigierte Wortarten
  • Kommentare des Transkribenten
  • Es besteht die Möglichkeit weitere Annotationsebenen zu ergänzen und ebenenunabhängig zu bearbeiten (multi-layer stand-off annotation)

Formate

Lizenz

Beispiele

| tok      | Sie      | haben     | sich      | dazu     | gewöhnt   |
| ZH1      | Sie      | haben     | sich      | daran    | gewöhnt   |
| ZH1Diff  |          |           |           | CHA      |           |
| ZH1lemma | Sie/sie  | haben     | er/sie/es | daran    | gewöhnen  |
| ZH1pos   | PPER     | VAFIN     | PRF       | PAV      | VVPP      |

Einsatzmöglichkeiten

  • Fehleranalyse (Abweichungen von der Zielsprache): Welche Fehler sind lernertypisch? Sind Fehler von der Muttersprache der Lerner abhängig?
  • Interlinguale kontrastive Untersuchungen: Vergleich von zielsprachlichen Strukturen (Grammatik) in der Zielsprache und der Muttersprache

KiezDeutsch-Korpus (KiDko)

...

Copyright

...

About

Eine annotierte Liste von modernen linguistischen Ressourcen

Resources

License

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published