Eine annotierte Liste von modernen linguistischen Ressourcen
- Alcohol Language Corpus - ALC
- Deutscher Wortschatz
- Deutsches Referenzkorpus (DeReKo)
- DIRNDL-Korpus
- DWDS-Kernkorpus
- DWDS-Kernkorpus des 20./21. Jahrhunderts
- Falko
- HEMPEL
- KiezDeutsch-Korpus (KiDKo)
- SmartKom
- TüBa-D/S
- TüBa-D/Z
- Wikipedia-Korpus (DeReKo - W - wpd11)
- Clemens Ahrens: DWDS-Kernkorpus
- Andrei Beliankou: TüBa-D/Z
- Juliane Bredack: Deutsches Referenzkorpus (DeReKo)
- Pia Chau: TüBa-D/S
- Roman Dawidow: DWDS Kernkorpus des 20./21. Jahrhunderts
- Katharina Dietz: Wikipedia-Korpus (DeReKo - Tagged C)
- Gulchehra Kahhorova: SmartKom
- Melanie Kleefisch: DIRNDL-Korpus
- Nikola Koczuba:
- Christina Lang:
- Stephan Lehmler: Alcohol Language Corpus - ALC
- Sarah Schneider: TIGER-Baumbank
- Ursula Schultze: Deutscher Wortschatz
- Julian Stawecki: Falko
- Constanze Tress: KiezDeutsch-Korpus (KiDKo)
- Jingmin Wang:
z.B. Zeitungstexte
z.B. 12.2014
z.B 70.000 Sätze
z.B. Morphologie, Syntax
z.B. Folia-XML
z.B. GPL 3
z.B. An/APPR der/ART Oder/NE wurde/VAFIN er/PPER dann/ADV verwendet/VVPP ./$.
z.B. Trainieren von statistischen syntaktischen Parsern
- deutschsprachige Textkorpora
- belletristische, wissenschaftliche und populärwissenschaftliche Texte, auch Zeitungstexte (vollständig und unveränderte Texte)
- mitte 20. Jahrhundert (Texte ab 1956) bis Gegenwart
- Korpus ist in eine Menge von Unterkorpora aufgeteilt, weltweit größte Sammlung deutschsprachiger Korpora
Stand 15.09.2014
- 25 Milliarden Wörter
- 86 Teilkorpora in 9 Archiven organisiert
- morphosyntaktische Annotation
- Machinese Phrase Tagger, TreeTagger, Xerox FST
- von Verlagen, Autoren gelieferte Texte in das IDS-Textmodell überführen
- große Mengen sehr heterogener Daten in mehreren Arbeitsschritten analysiert und aufwärts konvertiert
- Dokumentgrammatik I5
- i5.odd ODD-File mit der TEI P5-Customisierung von I5
- i5.dtd Durch Roma-Stylesheets abgeleitete DTD
- i5.html Durch projekt-spezifisches Stylesheet aus i5.odd abgeleitete HTML-Dokumentation
- i5.xhtml Durch Roma-Stylesheets aus i5.odd abgeleitete HTML-Dokumentation
- enthält nur lizenziertes Material
- nicht zum Download verfügbar, keine kommerzielle Nutzung, dient ausschließlich zu Forschungszwecken
- es bestehen Lizenzverträge zwischen Autoren und Verlagen
- alle Korpora IDS-intern und Teile dieser Korpora weltweit öffentlich nutzbar
\par HMP09 Russlands Gasmonopolist {\b Gazprom} pumpt weiter Gas in separaten Pipelines
\par HMP08 PR-Strategie von Apple, mit der es der {\b kalifornische Computerkonzern} schaffte, seinen \par HMP08 schaffte, seinen iPod zum {\b erfolgreichsten Musik-Player} der Welt zu machen.
- über COSMAS II (Corpus Search Management and Analysis Tool)
- komplexe Kollokationsanalysen
- linguistische Forschung am IDS
- Germanistikforschung
- interdisziplinäre Untersuchungen, Fachgebiete Psychologie, Neurologie, Kognitionswissenschaft, Sprachtherapie, Kommunikations- und Medienwissenschaft und Statistik
spontansprachliche, manuell transliterierte Dialoge
September 2000
ca. 38.000 Sätze bzw. 360.000 Wörter
- lexikalische Ebene
- phrasale Ebene
- Ebene der topologischen Felder
- Satzebene
- Negra Export Format (ps)
- XML Format
- Penn Treebank Format
linguistische Forschung
Wikipedia-Artikel von 2005
Texte: 196 854 Wörter: 54 041 081
Liegt im Archiv Tagged-C vor → annotiert durch den Tagger Connexor mit dem Tagset Connexor. Dabei handelt es sich um morphosyntaktische Annotationen Außerdem annotiert durch den TreeTagger (POS) und den Machinese Phrase Tagger (POS)
Das IDS-Textmodell: i5.odd i5.dtd i5.html i5.xhtml
Keine Herausgabe der Korpustexte, sondern nur Zugriff über CosmasII
WPD Band 2003 sogar möglich eine Tour durch <B>Japan</> zu machen, wo sie ebenfalls viele Fans
Training von Parsern, Linguistische Untersuchungen zu Schriftsprache im Internet, empirische Grundlage für verschiedene linguistische Forschungsarbeiten
Laboraufnahmen nüchterner und betrunkener Versuchspersonen.
erste komplette Version: 04.11.2010, letztes Update(version 2.4): 02.12.2014
15180 Aufnahmen von 162 Sprechern. Insgesamt 1456556 phonetische Segmente.
Metadaten(Datum, Sprecher, Blutalkoholwert etc.), phonetische Segmentierung, orthografische Transkription, kanonische Aussprache, Fehler/Normabweichungen(Abbrüche, dialektale Merkmale,unverständliche Wörter, Störgeräusche etc.), Kommentare
BAS Partitur Format,TextGrid, Emu hierarchical database files, Metadaten: SpeechDat, Audio: WAVE RIFF 44100Hz 16bit
COPYRIGHT University of Munich
z.B. die K"ochin mit dem -/#Tufenk/- -/#tu/- -/#topf/- <"ah> -/#Tupfenkoch/- <P> Tupfenkopftuch kocht Karpfen in dem Kupferkochtopf
z.B. Automatische Erfassung des Sprecherzustandes; Phonetische oder psycholinguistische Studien
Zeitungstexte der Frankfurter Rundschau
1999-2004
900,000 Tokens, 50,000 Sätze
Wortart, Lemma, Morphosyntax (STTS) Phrasenkategorien: S, NP, VP, … Syntaktische Funktionen: Subjekt, Objekt, Relativsatz, …
TIGER-XML Format Negra export Format
frei zugänglich Lizenzvereinbarungen: http://www.ims.uni-stuttgart.de/forschung/ressourcen/korpora/TIGERCorpus/license/htmlicense.html
(im TIGER-xml Format)
<terminals>
<t id="s4228_1" word="In" pos="APPR" />
<t id="s4228_2" word="Japan" pos="NE" />
<t id="s4228_3" word="wird" pos="VAFIN" />
<t id="s4228_4" word="offenbar" pos="ADJD" />
<t id="s4228_5" word="die" pos="ART" />
<t id="s4228_6" word="Fusion" pos="NN" />
<t id="s4228_7" word="der" pos="ART" />
<t id="s4228_8" word="Geldkonzerne" pos="NN" />
<t id="s4228_9" word="Daiwa" pos="NE" />
<t id="s4228_10" word="und" pos="KON" />
<t id="s4228_11" word="Sumitomo" pos="NE" />
<t id="s4228_12" word="zur" pos="APPRART" />
<t id="s4228_13" word="größten" pos="ADJA" />
<t id="s4228_14" word="Bank" pos="NN" />
<t id="s4228_15" word="der" pos="ART" />
<t id="s4228_16" word="Welt" pos="NN" />
<t id="s4228_17" word="vorbereitet" pos="VVPP" />
<t id="s4228_18" word="." pos="$." />
</terminals>
<terminals>
<t id="s4231_1" word="In" lemma="in" pos="APPR" morph="--" />
<t id="s4231_2" word="Japan" lemma="Japan" pos="NE" morph="Dat.Sg.Neut" />
<t id="s4231_3" word="wird" lemma="werden" pos="VAFIN" morph="3.Sg.Pres.Ind" />
<t id="s4231_4" word="offenbar" lemma="offenbar" pos="ADJD" morph="Pos" />
<t id="s4231_5" word="die" lemma="der" pos="ART" morph="Nom.Sg.Fem" />
<t id="s4231_6" word="Fusion" lemma="Fusion" pos="NN" morph="Nom.Sg.Fem" />
<t id="s4231_7" word="der" lemma="der" pos="ART" morph="Gen.Pl.Masc" />
<t id="s4231_8" word="Geldkonzerne" lemma="Geldkonzern" pos="NN" morph="Gen.Pl.Masc" />
<t id="s4231_9" word="Daiwa" lemma="Daiwa" pos="NE" morph="Nom.Sg.*" />
<t id="s4231_10" word="und" lemma="und" pos="KON" morph="--" />
<t id="s4231_11" word="Sumitomo" lemma="Sumitomo" pos="NE" morph="Nom.Sg.*" />
<t id="s4231_12" word="zur" lemma="zu" pos="APPRART" morph="Dat.Sg.Fem" />
<t id="s4231_13" word="größten" lemma="groß" pos="ADJA" morph="Sup.Dat.Sg.Fem" />
<t id="s4231_14" word="Bank" lemma="Bank" pos="NN" morph="Dat.Sg.Fem" />
<t id="s4231_15" word="der" lemma="der" pos="ART" morph="Gen.Sg.Fem" />
<t id="s4231_16" word="Welt" lemma="Welt" pos="NN" morph="Gen.Sg.Fem" />
<t id="s4231_17" word="vorbereitet" lemma="vorbereiten" pos="VVPP" morph="Psp" />
<t id="s4231_18" word="." lemma="--" pos="$." morph="--" />
</terminals>Zeitungstexte, Webseiten, Wikipedia
* Start des Projekts: 1997
* Hochzeit: 2001
* heute abgeschlossen, wird nur noch gepflegt bzw. Material gesammelt
Verfügbar sind 233 Korpus-basierte monolinguale Wörterbücher in 219 Sprachen
Beispiele der Korpusgröße verschiedener Sprachen:
| Deutsch | Englisch | Französisch | Spanisch | Chinesisch | Okzitansisch (nach 1500) |
|---------------------|---------------------|-----------------------|---------------------|-----------------------|--------------------------|
| Material: 2011 | Material: 2002 | Material: 2012 | Material: 2011 | Material: 2007 - 2009 | Material: 2007 |
| Sätze: 26.142.898 | Sätze: 49.628.893 | Sätze: 74.823.426 | Sätze: 16.899.636 | Sätze: 19.308.704 | Sätze: 16.895 |
| Types: 5.876.655 | Types: 4.785.862 | Types: 7.873.935 | Types: 1.913.986 | Types: 1.295.315 | Types: 44.064 |
| Tokens: 425.703.278 | Tokens: 926.766.504 | Tokens: 1.468.766.604 | Tokens: 391.044.224 | Tokens: 575.138.135 | Tokens: 301.449 |
- Wortfrequenzen
- Beispielsätze
- Kookkurenzen (basierend auf left- und right-neighbours in jeweiligem Satz)
- Semantic map-Visualisierung der Kookkurenzen
- Synonyme
- Dornseiff-Sets (Sachgruppen)
- Online: http://wortschatz.uni-leipzig.de/
- PDML (Presentation model description language)
Copyright Leipzig Corpora Collection
- Ursula: http://corpora.informatik.uni-leipzig.de/res.php?corpusId=deu_newscrawl_2011&word=Ursula
- Haus: http://corpora.informatik.uni-leipzig.de/res.php?corpusId=deu_newscrawl_2011&word=Haus
- Hausarbeit: http://corpora.informatik.uni-leipzig.de/res.php?corpusId=deu_newscrawl_2011&word=Hausarbeit
Nachschlagewerk, kontrastive Linguistik, quantitative Linguistik
- handschriftlich und digital verfasste Texte von fortgeschrittenen Lernern und Muttersprachlern der deutschen Sprache
- Texte: Zusammenfassungen, argumentative Aufsätze
- Themen: Feminismus, Entlohnung, Studium, Kriminalität
- Muttersprachen L2: über 35, davon die größten Gruppen in Englisch, Französisch, Russisch und Polnisch
- Voraussetzungen der Textproduktion: Keine Hilfsmittel, 90 Minuten Bearbeitungszeit
- Beginn der Datenerhebungen (seit 2004)
- FALKO Version 1 (18. Oktober 2007)
- FALKO Version 2 (26. September 2012)
Gesamtkorpus besteht aus 6 Subkorpora (insgesamt 381.447 Tokens)
- Lernerkorpus
- FalkoSummaryL2 V1.2 (98 Lerner, 107 Texte, 40.923 Tokens)
- FalkoEssayL2 V2.3 (186 Lerner, 248 Texte, 122.778 Tokens)
- FalkoEssayL2WHIG V2.0 (117.189 Tokens)
- Kontrollkorpus Muttersprache
- FalkoSummaryL1 V1.2 (33 Muttersprachler, 36 Texte, 21.184 Tokens)
- FalkoEssayL1 V2.3 (95 Muttersprachler, 95 Texte, 68.491 Tokens)
- Vorlagenkorpus
- FalkoSummaryVL (12 Texte, 11.114 Tokens)
- Metadaten: Muttersprache, Alter, Geschlecht, akademischer Hintergrund (Schule, Semester, Fach, etc.), Sprachbiografie (beherrschte Fremdsprachen, Zeitraum, Auslandsaufenthalte, etc.)
- Wortarten und Lemmata
- Zielhypothesen
- minimale ZH: nah an Lernerstruktur: Orthographie, Morphosyntax
- erweiterte ZH: nah an Lernerintention: Semantik, Pragmatik, Stilistik
- Lernerfehler
- korrigierte Wortarten
- Kommentare des Transkribenten
- Es besteht die Möglichkeit weitere Annotationsebenen zu ergänzen und ebenenunabhängig zu bearbeiten (multi-layer stand-off annotation)
- Zugang Online auf: http://korpling.german.hu-berlin.de/falko-suche/ (ANNIS3-Korpus-Suchtool)
- Original-Textdokumente
- Excel-Tabellen
- PAULA-XML
- Creative Commons Namensnennung 3.0 Unported Lizenz
- Info: https://creativecommons.org/licenses/by/3.0/deed.de
| tok | Sie | haben | sich | dazu | gewöhnt |
| ZH1 | Sie | haben | sich | daran | gewöhnt |
| ZH1Diff | | | | CHA | |
| ZH1lemma | Sie/sie | haben | er/sie/es | daran | gewöhnen |
| ZH1pos | PPER | VAFIN | PRF | PAV | VVPP |
- Fehleranalyse (Abweichungen von der Zielsprache): Welche Fehler sind lernertypisch? Sind Fehler von der Muttersprache der Lerner abhängig?
- Interlinguale kontrastive Untersuchungen: Vergleich von zielsprachlichen Strukturen (Grammatik) in der Zielsprache und der Muttersprache
...