corpora icon indicating copy to clipboard operation
corpora copied to clipboard

Eine annotierte Liste von modernen linguistischen Ressourcen

Introduction: Corpora of (modern) German

Eine annotierte Liste von modernen linguistischen Ressourcen

Table of Contents

  • Alcohol Language Corpus - ALC
  • Deutscher Wortschatz
  • Deutsches Referenzkorpus (DeReKo)
  • DIRNDL-Korpus
  • DWDS-Kernkorpus
  • DWDS-Kernkorpus des 20./21. Jahrhunderts
  • Falko
  • HEMPEL
  • KiezDeutsch-Korpus (KiDKo)
  • SmartKom
  • TüBa-D/S
  • TüBa-D/Z
  • Wikipedia-Korpus (DeReKo - W - wpd11)

Review Structure

Liste der Quellen

  • Clemens Ahrens: DWDS-Kernkorpus
  • Andrei Beliankou: TüBa-D/Z
  • Juliane Bredack: Deutsches Referenzkorpus (DeReKo)
  • Pia Chau: TüBa-D/S
  • Roman Dawidow: DWDS Kernkorpus des 20./21. Jahrhunderts
  • Katharina Dietz: Wikipedia-Korpus (DeReKo - Tagged C)
  • Gulchehra Kahhorova: SmartKom
  • Melanie Kleefisch: DIRNDL-Korpus
  • Nikola Koczuba: EK-Korpus (Elizitierte Konfliktgespräche)
  • Christina Lang: OS-Korpus (Deutsche Mundarten: ehemalige deutsche Ostgebiete)
  • Stephan Lehmler: Alcohol Language Corpus - ALC
  • Sarah Schneider: TIGER-Baumbank
  • Ursula Schultze: Deutscher Wortschatz
  • Julian Stawecki: Falko
  • Constanze Tress: KiezDeutsch-Korpus (KiDKo)
  • Jingmin Wang:

DWDS-Kernkorpus

Materialquelle

- Zeitung				ca. 27%
- Belletristik			ca. 26%
- Wissenschaft			ca. 22%
- Gebrauchsliteratur	ca. 20%
- Transkribierte Texte	ca. 05%

Datum

laufendes Projekt

Korpusumfang

- Tokens: 122.816.010
- Tokens ohne Zahlen und Satzzeichen: 100.600.993
- Types: 2.224.542
- Dokumente: 79.830

Annotationsebenen

- Morphologie (TAGH-Morphologie, DWDS-Eigennamenerkenner)
- Syntax (Dependenzparser SynCoP)

Formate

XML, nach TEI-Richtlinien

Lizenz

Nutzungsvereinbarung mit Verlagen und privaten Textgebern, d.h Registrierung für einige Texte notwendig

Beispiele

Abfrage: Linguistik
Filter aktiv: 
Sortierung: desc_date

Trefferanzahl: 136 Sätze, davon anzeigbar: 115 Sätze


1.)	1999	Gebrauchsliteratur	Schwanitz, Dietrich, Bildung, Frankfurt a.M.: Eichborn 1999, S. 356

Sie wurde erst von dem Begründer der modernen _&_&Linguistik&_&_ gemacht , dem Schweizer Ferdinand de Saussure .


2.)	1998	Wissenschaft	Fath, Rolf, Reclams Lexikon der Opernwelt Band 2, Stuttgart: Reclam 1998, S. 3078

Ab 1971 studierte er in Paris vergleichende Literatur und _&_&Linguistik&_&_ an der École des langues orientales sowie Komposition am Pariser Konservatorium , wo er 1977 den Kompositionspreis von Olivier Messiaens Klasse erhielt .

Einsatzmöglichkeiten

Wörterbuchanalyse (Bedeutung, Etymologie, Synonymie,...) Belegermittlung Statistische Auswertungen: - DWDS-Wortprofil: syntaktische Relationen - DWDS-Wortverlaufskurve: zeitlicher Verlauf der Vorkommenshäufigkeit, auch nach Textsorten

Tüba-D/Z

Materialquelle

z.B. Zeitungstexte

Datum

z.B. 12.2014

Korpusumfang

z.B 70.000 Sätze

Annotationsebenen

z.B. Morphologie, Syntax

Formate

z.B. Folia-XML

Lizenz

z.B. GPL 3

Beispiele

z.B. An/APPR der/ART Oder/NE wurde/VAFIN er/PPER dann/ADV verwendet/VVPP ./$.

Einsatzmöglichkeiten

z.B. Trainieren von statistischen syntaktischen Parsern

DeReKo

Materialquelle

  • deutschsprachige Textkorpora
  • belletristische, wissenschaftliche und populärwissenschaftliche Texte, auch Zeitungstexte (vollständig und unveränderte Texte)
  • mitte 20. Jahrhundert (Texte ab 1956) bis Gegenwart
  • Korpus ist in eine Menge von Unterkorpora aufgeteilt, weltweit größte Sammlung deutschsprachiger Korpora

Datum

Stand 15.09.2014

Korpusumfang

  • 25 Milliarden Wörter
  • 86 Teilkorpora in 9 Archiven organisiert

Annotationsebenen

  • morphosyntaktische Annotation
  • Machinese Phrase Tagger, TreeTagger, Xerox FST

Formate

  • von Verlagen, Autoren gelieferte Texte in das IDS-Textmodell überführen
  • große Mengen sehr heterogener Daten in mehreren Arbeitsschritten analysiert und aufwärts konvertiert
  • Dokumentgrammatik I5
    • i5.odd ODD-File mit der TEI P5-Customisierung von I5
    • i5.dtd Durch Roma-Stylesheets abgeleitete DTD
    • i5.html Durch projekt-spezifisches Stylesheet aus i5.odd abgeleitete HTML-Dokumentation
    • i5.xhtml Durch Roma-Stylesheets aus i5.odd abgeleitete HTML-Dokumentation

Lizenz

  • enthält nur lizenziertes Material
  • nicht zum Download verfügbar, keine kommerzielle Nutzung, dient ausschließlich zu Forschungszwecken
  • es bestehen Lizenzverträge zwischen Autoren und Verlagen
  • alle Korpora IDS-intern und Teile dieser Korpora weltweit öffentlich nutzbar

Beispiele

\par HMP09 Russlands Gasmonopolist {\b Gazprom} pumpt weiter Gas in separaten Pipelines

\par HMP08 PR-Strategie von Apple, mit der es der {\b kalifornische Computerkonzern} schaffte, seinen \par HMP08 schaffte, seinen iPod zum {\b erfolgreichsten Musik-Player} der Welt zu machen.

Einsatzmöglichkeiten

  • über COSMAS II (Corpus Search Management and Analysis Tool)
  • komplexe Kollokationsanalysen
  • linguistische Forschung am IDS
  • Germanistikforschung
  • interdisziplinäre Untersuchungen, Fachgebiete Psychologie, Neurologie, Kognitionswissenschaft, Sprachtherapie, Kommunikations- und Medienwissenschaft und Statistik

TüBa-D/S

Materialquelle

spontansprachliche, manuell transliterierte Dialoge

Datum

September 2000

Korpusumfang

ca. 38.000 Sätze bzw. 360.000 Wörter

Annotationsebenen

  • lexikalische Ebene
  • phrasale Ebene
  • Ebene der topologischen Felder
  • Satzebene

Formate

  • Negra Export Format (ps)
  • XML Format
  • Penn Treebank Format

Beispiele

Einsatzmöglichkeiten

linguistische Forschung

DWDS Kernkorpus des 20./21. Jahrhunderts

Materialquelle

  • Belletristik (ca. 26%)
  • Zeitung (ca. 27%)
  • Wissenschaft (ca. 22%)
  • Gebrauchsliteratur (ca. 20%)
  • (Transkribierte) Texte gesprochener Sprache (ca. 5%)

Datum

  • befindet sich im Aufbau

Korpusumfang

  • Zwanzigstes Jahrhundert -> Anzahl fortlaufender Textwörter (Tokens) - gesamt: 122.816.010 -> Anzahl fortlaufender Textwörter (Tokens) ohne Zahlen und Satzzeichen: 100.600.993 -> Anzahl verschiedener Wörter (Types): 2.224.542 -> Anzahl Dokumente: 79.830

  • Einundzwanzigstes Jahrhundert -> Anzahl fortlaufender Textwörter (Tokens): 1.812.243 -> Anzahl fortlaufender Textwörter (Tokens) ohne Zahlen und Satzzeichen: 1.500.844 -> Anzahl der Sätze: 112.683

Annotationsebenen

  • morphosyntaktisch (STTS)
  • syntaktisch

Formate

  • XML

Lizenz

  • Nutzungsvereinbarung mit Verlagen: -> Diogenes Verlag, Eichborn -> S. Fischer Verlagsgruppe -> Hoffmann & Campe -> Kiepenheuer & Witsch -> K.G. Saur Verlag -> Spiegel -> Ullstein -> ZEIT

  • Nutzungsvereinbarung mit privaten Textgebern: -> Deutsches Rundfunkarchiev, Digitale Bibliothek

  • Zur vollständigen Nutzung ist eine Registrierung auf der Webseite erforderlich

Beispiele

siehe:

  • http://www.dwds.de/?qu=
  • http://zwei.dwds.de/r

Einsatzmöglichkeiten

  • linguistische Forschung

Wikipedia-Korpus (DeReKo - Tagged C)

Materialquelle

Wikipedia-Artikel von 2005

Korpusumfang

Texte: 196 854 Wörter: 54 041 081

Annotationsebenen

Liegt im Archiv Tagged-C vor → annotiert durch den Tagger Connexor mit dem Tagset Connexor. Dabei handelt es sich um morphosyntaktische Annotationen Außerdem annotiert durch den TreeTagger (POS) und den Machinese Phrase Tagger (POS)

Formate

Das IDS-Textmodell: i5.odd i5.dtd i5.html i5.xhtml

Lizenz

Keine Herausgabe der Korpustexte, sondern nur Zugriff über CosmasII

Beispiele

WPD   Band 2003 sogar möglich eine Tour durch <B>Japan</> zu machen, wo sie ebenfalls viele Fans

Einsatzmöglichkeiten

Training von Parsern, Linguistische Untersuchungen zu Schriftsprache im Internet, empirische Grundlage für verschiedene linguistische Forschungsarbeiten

SmartKom

Materialquelle

Video- und Audioaufnahmen: 448 multimodale Aufnahmen ('Sessions') von 224 Versuchspersonen, 1 Session = ca. 4,5 min

Datum

  • Start: 01.09.1999
  • Abgeschlossen: 30.09.2003
  • letzte Aktualisierung: 29.02.2012

Korpusumfang

  • SmartKom Public / SKP 2.2 - 96 Sprecher - 172 Aufnahme-Sessions - Szenario: Public - Domänen: 'Cinema', 'Fax' (Hauptanwendung) und 'Restaurant', 'Telephone', 'Email' (Nebenanwendung)
  • SmartKom Mobil / SKM 1.2 - 73 Sprecher - 146 Aufnahme-Sessions - Szenario: Mobil - Domänen: 'Sehenswürdigkeiten', 'Navigation' (Hauptanwendung) und 'Telephon', 'Parkplatzsuche' (Nebenanwendung)
  • SmartKom Home / SKH 1.1 - 65 Sprecher - 130 Aufnahme-Sessions - Szenario: Home - Domänen: 'Fernsehen', 'Video' (Hauptanwendung) und 'Terminplanung', 'Musikauswahl' (Nebenanwendung)
  • SmartKom Audio / SKAUDIO 1.1 - Sonderausgabe aller Audio-Kanäle der SmartKom Korpora - 224 Sprecher - 448 Aufnahme-Sessions - Szenario: Public, Home, Mobil

Annotationsebenen

  • Transliteration (orthographische und prosodische Transkription, automatische Validation)
  • 2D Gestik (Emotion- und Gestik-Labeling)
  • User-State
  • Turn-Segmentierung

Formate

  • Audio- und Videoformate, verfügbar auf DVD

Lizenz

COPYRIGHT Universität München

Beispiele

  • SmartKom Public Aufnahme (AVI, 320MB) - w406_pxg: http://www.bas.uni-muenchen.de/forschung/Bas/BasSKVIDEO/w406_pxg.avi SK Public, Vierfachansicht (G track): Gesicht, Seite, System-Output + SIVIT, SIVIT (Infrarot), Domain: Hotel, Fax, Telefon, Restaurant, Navigation.
  • Transkript - w406_px.trl: http://www.bas.uni-muenchen.de/forschung/Bas/BasSKVIDEO/w406_px.trl
  • Recording Protocol - w406_px.rpr: http://www.bas.uni-muenchen.de/forschung/Bas/BasSKVIDEO/w406_px.rpr
  • Speaker Protocol - AJK.spr: http://www.bas.uni-muenchen.de/forschung/Bas/BasSKVIDEO/AJK.spr

Einsatzmöglichkeiten

  • Untersuchung der Mensch-Maschine-Interaktion
  • Auf dem Korpus-Basis von SmartKom wurden 3 Multimodale Dialogsysteme aufgebaut:
  • SmartKom-Public: Multimodale Kommunikationszelle, Informationskiosk
  • SmartKom-Mobil: Mobiler Kommunikationsassistent
  • SmartKom-Home: Intuitives Arbeiten mit dem Computer

DIRNDL-Korpus

Materialquelle

  • DIRNDL =(D)iskurs-(I)nformations-(R)adio-(N)achrichten-(D)atenbank für (L)inguistische Analysen

  • stündlich gesendete Radio-Nachrichten von "Deutschland-Radio

  • mündliche und schriftliche Versionen

Datum

  1. release: 2012
  2. release: 26.-31. Mai 2014

Korpusumfang

  • ca. 50.000 Wörter
  • Audiodateien im Umfang von ca. 5 Stunden (vom 25.- 27.03.2007)
  • 9 Sprecher (5 m, 4 w)
  • schriftliche Manuskripte, bestehend aus insgesamt 3221 Sätzen

Annotationsebenen

  1. release (DIRNDL)
  • schriftlich: Syntax mithilfe des XLE Parsers, Informationsstatus (Grad an Gegebenheit: gegebene o. neue Information)(automatisch)

  • mündlich: pitch-Akzente und prosodische Phrasengrenzen mithilfe von GToBI (manuell)

  • außerdem: Verbindung zwischen mündlich und schriftlich (mithilfe von relational

  • database management system PostgreSQL) --> Vergleich zwischen einzelnen Ebenen, z.B. Zusammenhang zwischen Prosodie und Syntax

  1. release (extended version: DIRNDL anaphora)
  • zusätzlich coreference, part-of-speech und morphologische tags, Dependenz, Named-Entities

Formate

  • TIGER-XML mithilfe von TIGERRegistry

  • GrAF XML

  • konvertierbar in verschiedene tool input-Formate. z.B. PAULA XML

  • verfügbar in Tabellenformaten

  • SemEval

  • CoNLL

Lizenz

frei verfügbar unter http://www.ims.uni-stuttgart.de/data/dirndl

Beispiele

	#begin document dlf-nachrichten-200703250000 (part 000)
	dlf-nachrichten-200703250000  0  1   1  Der             der             ART     case=nom|number=sg|gender=masc            *        2  NK  (VROOT(S(NP*    |NONE|     NONE  -          (R-UNUSED-KNOWN$2    (1
	dlf-nachrichten-200703250000  0  1   2  Iran            iran            NE      case=nom|number=sg|gender=masc            *        3  SB             *)   |H*L|      NONE  (L-NEW$1)  R-UNUSED-KNOWN$2)    1)
	dlf-nachrichten-200703250000  0  1   3  will            wollen          VMFIN   number=sg|person=3|tense=pres|mood=ind    *        0  --             *    |NONE|     NONE  -          -                    - 
		   -                    - 
	...
	----------------------------------

	dlf-nachrichten-200703250000  0  3   1  Der             der             ART    case=nom|number=sg|gender=masc             *        2  NK  (VROOT(S(NP*     |NONE|      NONE  -                             (R-UNUSED-KNOWN$7                        - 
	dlf-nachrichten-200703250000  0  3   2  Westen          westen          NN     case=nom|number=sg|gender=masc             *        3  SB             *)    |L*H|       -     (L-NEW$16)                    R-UNUSED-KNOWN$7)                        - 
	dlf-nachrichten-200703250000  0  3   3  verdächtigt     verdächtigen    VVFIN  number=sg|person=3|tense=pres|mood=ind     *        0  --             *     |NONE|      NONE  (L-NEW$15)                    -                                        - 
	dlf-nachrichten-200703250000  0  3   4  den             der             ART    case=acc|number=sg|gender=masc             *        5  NK          (NP*     |NONE|      NONE  -                             (R-GIVEN$12                              (1
	dlf-nachrichten-200703250000  0  3   5  Iran            iran            NE     case=acc|number=sg|gender=masc             *        3  OA             *))   |L*H|       -     (L-GIVEN-SAME$19$1-2-2)       R-GIVEN$12)                              1)
	dlf-nachrichten-200703250000  0  3   6  ,               --              $,     _                                          *        3  --             *     N/A         N/A   -  

	...                           -                                        - 

Einsatzmöglichkeiten

  • Evaluation von automatischen Koreferenz- und Bridging-Lösungen
  • Bedeutungsunterschiede aufgrund von Prosodie (Informationsstatus)
  • Trainingskorpus für automatisches Prosodie-Annotationen

Elizitierte Konfliktgespräche (EK)

Materialquelle

Aufnahmen von Konfliktgesprächen zwischen Müttern und ihren Töchtern

Datum

15.3.1988-30.6.1992

Korpusumfang

  • 138 Aufnahmen von 214 Sprecherinnen, Gesamtdauer 12h 23min
  • 138 Transkripte (162123 Tokens)

Annotationsebenen

  • orthographische Transkription (Partiturschreibweise) mit zusätzlichen Notationen
  • Metadaten
  • Themenliste

Formate

  • Audio: RIFF-WAVE (PCM) 44.100 Hz 16Bit
  • Transkripte: PDF (UTF-8)

###Lizenz nach einmaliger Registrierung webbasierter Zugriff auf ausgewählte Teile der Sammlung des Archivs für Gesprochenes Deutsch (AGD) für die Verwendung in Forschung und Lehre http://dgd.ids-mannheim.de:8080/dgd/pragdb.dgd_extern.welcome

Beispiele

http://dgd.ids-mannheim.de:8080/dgd/pragdb.dgd_extern.corpora?v_session_id=EB1B4C7CC2EA5C6ECF2E9BDEBB72691C&v_doctype=e&v_corpus=EK--&v_doc_id=EK--_E_00001

Einsatzmöglichkeiten

  • Diskurs-/Gesprächsanalyse
  • pädagogischer Kontext

...

...

Alcohol Language Corpus - ALC

Materialquelle

Laboraufnahmen nüchterner und betrunkener Versuchspersonen.

Datum

erste komplette Version: 04.11.2010, letztes Update(version 2.4): 02.12.2014

Korpusumfang

15180 Aufnahmen von 162 Sprechern. Insgesamt 1456556 phonetische Segmente.

Annotationsebenen

Metadaten(Datum, Sprecher, Blutalkoholwert etc.), phonetische Segmentierung, orthografische Transkription, kanonische Aussprache, Fehler/Normabweichungen(Abbrüche, dialektale Merkmale,unverständliche Wörter, Störgeräusche etc.), Kommentare

Formate

BAS Partitur Format,TextGrid, Emu hierarchical database files, Metadaten: SpeechDat, Audio: WAVE RIFF 44100Hz 16bit

Lizenz

COPYRIGHT University of Munich

Beispiele

z.B. die K"ochin mit dem -/#Tufenk/- -/#tu/- -/#topf/- <"ah> -/#Tupfenkoch/- <P> Tupfenkopftuch kocht Karpfen in dem Kupferkochtopf

Einsatzmöglichkeiten

z.B. Automatische Erfassung des Sprecherzustandes; Phonetische oder psycholinguistische Studien

TIGER

Materialquelle

Zeitungstexte der Frankfurter Rundschau

Datum

1999-2004

Korpusumfang

900,000 Tokens, 50,000 Sätze

Annotationsebenen

Wortart, Lemma, Morphosyntax (STTS) Phrasenkategorien: S, NP, VP, … Syntaktische Funktionen: Subjekt, Objekt, Relativsatz, …

Formate

TIGER-XML Format Negra export Format

Lizenz

frei zugänglich Lizenzvereinbarungen: http://www.ims.uni-stuttgart.de/forschung/ressourcen/korpora/TIGERCorpus/license/htmlicense.html

Beispiele

(im TIGER-xml Format)

<terminals>
 <t id="s4228_1" word="In" pos="APPR" />
 <t id="s4228_2" word="Japan" pos="NE" />
 <t id="s4228_3" word="wird" pos="VAFIN" />
 <t id="s4228_4" word="offenbar" pos="ADJD" />
 <t id="s4228_5" word="die" pos="ART" />
 <t id="s4228_6" word="Fusion" pos="NN" />
 <t id="s4228_7" word="der" pos="ART" />
 <t id="s4228_8" word="Geldkonzerne" pos="NN" />
 <t id="s4228_9" word="Daiwa" pos="NE" />
 <t id="s4228_10" word="und" pos="KON" />
 <t id="s4228_11" word="Sumitomo" pos="NE" />
 <t id="s4228_12" word="zur" pos="APPRART" />
 <t id="s4228_13" word="größten" pos="ADJA" />
 <t id="s4228_14" word="Bank" pos="NN" />
 <t id="s4228_15" word="der" pos="ART" />
 <t id="s4228_16" word="Welt" pos="NN" />
 <t id="s4228_17" word="vorbereitet" pos="VVPP" />
 <t id="s4228_18" word="." pos="$." />
</terminals>

 <terminals>
      <t id="s4231_1" word="In" lemma="in" pos="APPR" morph="--" />
      <t id="s4231_2" word="Japan" lemma="Japan" pos="NE" morph="Dat.Sg.Neut" />
      <t id="s4231_3" word="wird" lemma="werden" pos="VAFIN" morph="3.Sg.Pres.Ind" />
      <t id="s4231_4" word="offenbar" lemma="offenbar" pos="ADJD" morph="Pos" />
      <t id="s4231_5" word="die" lemma="der" pos="ART" morph="Nom.Sg.Fem" />
      <t id="s4231_6" word="Fusion" lemma="Fusion" pos="NN" morph="Nom.Sg.Fem" />
      <t id="s4231_7" word="der" lemma="der" pos="ART" morph="Gen.Pl.Masc" />
      <t id="s4231_8" word="Geldkonzerne" lemma="Geldkonzern" pos="NN" morph="Gen.Pl.Masc" />
      <t id="s4231_9" word="Daiwa" lemma="Daiwa" pos="NE" morph="Nom.Sg.*" />
      <t id="s4231_10" word="und" lemma="und" pos="KON" morph="--" />
      <t id="s4231_11" word="Sumitomo" lemma="Sumitomo" pos="NE" morph="Nom.Sg.*" />
      <t id="s4231_12" word="zur" lemma="zu" pos="APPRART" morph="Dat.Sg.Fem" />
      <t id="s4231_13" word="größten" lemma="groß" pos="ADJA" morph="Sup.Dat.Sg.Fem" />
      <t id="s4231_14" word="Bank" lemma="Bank" pos="NN" morph="Dat.Sg.Fem" />
      <t id="s4231_15" word="der" lemma="der" pos="ART" morph="Gen.Sg.Fem" />
      <t id="s4231_16" word="Welt" lemma="Welt" pos="NN" morph="Gen.Sg.Fem" />
      <t id="s4231_17" word="vorbereitet" lemma="vorbereiten" pos="VVPP" morph="Psp" />
      <t id="s4231_18" word="." lemma="--" pos="$." morph="--" />
    </terminals>

Einsatzmöglichkeiten

Deutscher Wortschatz

Materialquelle

Zeitungstexte, Webseiten, Wikipedia

Datum

* Start des Projekts: 1997
* Hochzeit: 2001
* heute abgeschlossen, wird nur noch gepflegt bzw. Material gesammelt

Korpusumfang

Verfügbar sind 233 Korpus-basierte monolinguale Wörterbücher in 219 Sprachen
Beispiele der Korpusgröße verschiedener Sprachen:
| Deutsch             | Englisch            | Französisch           | Spanisch            | Chinesisch            | Okzitansisch (nach 1500) |
|---------------------|---------------------|-----------------------|---------------------|-----------------------|--------------------------|
| Material: 2011      | Material: 2002      | Material: 2012        | Material: 2011      | Material: 2007 - 2009 | Material: 2007           |
| Sätze: 26.142.898   | Sätze: 49.628.893   | Sätze: 74.823.426     | Sätze: 16.899.636   | Sätze: 19.308.704     | Sätze: 16.895            |
| Types: 5.876.655    | Types: 4.785.862    | Types: 7.873.935      | Types: 1.913.986    | Types: 1.295.315      | Types: 44.064            |
| Tokens: 425.703.278 | Tokens: 926.766.504 | Tokens: 1.468.766.604 | Tokens: 391.044.224 | Tokens: 575.138.135   | Tokens: 301.449          |

Annotationsebenen

  • Wortfrequenzen
  • Beispielsätze
  • Kookkurenzen (basierend auf left- und right-neighbours in jeweiligem Satz)
  • Semantic map-Visualisierung der Kookkurenzen
  • Synonyme
  • Dornseiff-Sets (Sachgruppen)

Formate

  • Online: http://wortschatz.uni-leipzig.de/
  • PDML (Presentation model description language)

Lizenz

Copyright Leipzig Corpora Collection

Beispiele

  • Ursula: http://corpora.informatik.uni-leipzig.de/res.php?corpusId=deu_newscrawl_2011&word=Ursula
  • Haus: http://corpora.informatik.uni-leipzig.de/res.php?corpusId=deu_newscrawl_2011&word=Haus
  • Hausarbeit: http://corpora.informatik.uni-leipzig.de/res.php?corpusId=deu_newscrawl_2011&word=Hausarbeit

Einsatzmöglichkeiten

Nachschlagewerk, kontrastive Linguistik, quantitative Linguistik

Falko

Materialquelle

  • handschriftlich und digital verfasste Texte von fortgeschrittenen Lernern und Muttersprachlern der deutschen Sprache
  • Texte: Zusammenfassungen, argumentative Aufsätze
  • Themen: Feminismus, Entlohnung, Studium, Kriminalität
  • Muttersprachen L2: über 35, davon die größten Gruppen in Englisch, Französisch, Russisch und Polnisch
  • Voraussetzungen der Textproduktion: Keine Hilfsmittel, 90 Minuten Bearbeitungszeit

Datum

  • Beginn der Datenerhebungen (seit 2004)
  • FALKO Version 1 (18. Oktober 2007)
  • FALKO Version 2 (26. September 2012)

Korpusumfang

Gesamtkorpus besteht aus 6 Subkorpora (insgesamt 381.447 Tokens)

  • Lernerkorpus
  • FalkoSummaryL2 V1.2 (98 Lerner, 107 Texte, 40.923 Tokens)
  • FalkoEssayL2 V2.3 (186 Lerner, 248 Texte, 122.778 Tokens)
  • FalkoEssayL2WHIG V2.0 (117.189 Tokens)
  • Kontrollkorpus Muttersprache
  • FalkoSummaryL1 V1.2 (33 Muttersprachler, 36 Texte, 21.184 Tokens)
  • FalkoEssayL1 V2.3 (95 Muttersprachler, 95 Texte, 68.491 Tokens)
  • Vorlagenkorpus
  • FalkoSummaryVL (12 Texte, 11.114 Tokens)
  • Metadaten: Muttersprache, Alter, Geschlecht, akademischer Hintergrund (Schule, Semester, Fach, etc.), Sprachbiografie (beherrschte Fremdsprachen, Zeitraum, Auslandsaufenthalte, etc.)

Annotationsebenen

  • Wortarten und Lemmata
  • Zielhypothesen
  • minimale ZH: nah an Lernerstruktur: Orthographie, Morphosyntax
  • erweiterte ZH: nah an Lernerintention: Semantik, Pragmatik, Stilistik
  • Lernerfehler
  • korrigierte Wortarten
  • Kommentare des Transkribenten
  • Es besteht die Möglichkeit weitere Annotationsebenen zu ergänzen und ebenenunabhängig zu bearbeiten (multi-layer stand-off annotation)

Formate

  • Zugang Online auf: http://korpling.german.hu-berlin.de/falko-suche/ (ANNIS3-Korpus-Suchtool)
  • Original-Textdokumente
  • Excel-Tabellen
  • PAULA-XML

Lizenz

  • Creative Commons Namensnennung 3.0 Unported Lizenz
  • Info: https://creativecommons.org/licenses/by/3.0/deed.de

Beispiele

| tok      | Sie      | haben     | sich      | dazu     | gewöhnt   |
| ZH1      | Sie      | haben     | sich      | daran    | gewöhnt   |
| ZH1Diff  |          |           |           | CHA      |           |
| ZH1lemma | Sie/sie  | haben     | er/sie/es | daran    | gewöhnen  |
| ZH1pos   | PPER     | VAFIN     | PRF       | PAV      | VVPP      |

Einsatzmöglichkeiten

  • Fehleranalyse (Abweichungen von der Zielsprache): Welche Fehler sind lernertypisch? Sind Fehler von der Muttersprache der Lerner abhängig?
  • Interlinguale kontrastive Untersuchungen: Vergleich von zielsprachlichen Strukturen (Grammatik) in der Zielsprache und der Muttersprache

KiezDeutsch-Korpus (KiDko)

Materialquelle

1.) Korpus

  • spoken language corpus
  • Informelle, spontansprachliche Gesprächsdaten von Berliner Jugendlichen nicht-deutscher Herkunftssprache (9. Klasse, 14-17 Jahren), Selbstaufnahmen im Freundeskreis
  • Sprachen: v.a. Deutsch und Türkisch

2.) thematische Klammer

  • Kiezdeutsch/„hood German“ (Rehbein/Schalowski/Wiese 2014) als Multiethnolekt urbaner Lebensräume
  • Zentrale Elemente: Code-Mixing und –Switching, Abweichungen vom Standard auf phonetischer, morphosyntaktischer und lexikalischer Ebene

Datum

  • ab 2008: Beginn Korpusaufbau (Audioaufnahmen, Transkription, POS-Tagging)
  • KiDKo Version 1.0: Frühling 2014
  • Aktuelle Projektphase: Syntaktische Aufbereitung (Annotation topologischer Felder)

Korpusumfang

Korpus Beschreibung
Hauptkorpus ~ 228.000 Token; rd. 48 h Aufnahmen,
17 Sprecher/innen, Multiethnisches Wohngebiet (Berlin-Kreuzberg)
Kontrollkorpus ~ 105.000 Token; rd. 18 h Aufnahme
6 Sprecher/innen (5 männlich, 1 weiblich)
Monoethnisches Wohngebiet (Berlin-Hellersdorf)

Annotationsebenen

Kürzel Beschreibung
nv nonverbale Ebene
v Transkriptionsebene (GAT2): Prosodische Merkmale (Betonungen u.a.)
n Normalisierungsebene (Default-Suche)
POS Wortartenebene
- Erweiterung STTS für gesprochene Sprache (Partikel, Abbrüche)
- Entwicklung eines verbesserten Taggers für informelles gesprochenes Deutsch
Tr türkische Transkriptionsebene
trnorm türkische Normalisierungsebene
trdtwwue deutsche Übersetzung (Wort für Wort)
trdtue deutsche Übersetzung (frei)

Metainformationen:

Sprecherkürzel, Geschlecht, Alter, Wohngebiet, Familiensprache, dominante Sprache

Formate

wav (audio), EXMARaLDA-XML (EXMARaLDA Partitur Editor als Darstellungs- und Transkriptionssystem)

Lizenz

  • COPYRIGHT: SFB 632 Informationsstruktur, Universität Potsdam
  • Zugang zu den EXMARaLDA-Transkripten über ANNIS (Login-Daten auf Anfrage beim SFB 632: http://www.sfb632.uni-potsdam.de/b6/license.php)
  • Zugang zu den Audiodateien aus rechtlichen Gründen nur vor Ort

Beispiele

  • Suche nach türkischem Einzellemma: tr=/lan/

Einzellemma

  • Suche nach POS-Tag-Abfolge: POS=/ADV/ & POS=/ADJD/ & POS=/ADJD/ & #1 . #2 & #2 . #3

POS-Tag-Abfolge

  • Suche nach speziellem (Berliner) Kiezdeutsch-Phänomen (Koronalisierung): n=“isch“ Koronalisierung

Quelle: Rehbein/Schalowski/Wiese (2014)

Einsatzmöglichkeiten

  • Nur bei Volltextrecherche: Gesprächsforschung
  • Nur bei Zugang zu kompletten Audiofiles: Intonationsforschung
  • Trainingskorpus für POS-Tagger gesprochener Sprache
  • Soziolinguistik/Jugendsprache (auch kontrastiv)
  • Sprachkontaktforschung
  • Varietätenlinguistik/Ethnolektforschung
  • Gegenwärtiger Sprachwandel

Quellen

Korpus

  • Wiese, H.; Rehbein, I.; Schalowski, S.; Freywald, U. & Mayr, K. (2010ff): KiDKo - Ein Korpus spontaner Unterhaltungen unter Jugendlichen im multiethnischen und monoethnischen urbanen Raum

Literatur

  • Rehbein, I.; Schalowski, S. & Wiese, H. (2014): The KiezDeutsch Korpus (KiDKo) Release 1.0. In: Proceedings of the 9th International Conference on Language Resources and Evaluation (LREC), May 24-31, 2014. Reykjavik, Iceland. [verfügbar unter: http://www.sfb632.uni-potsdam.de/~rehbein/papers/lrec_camera-ready.pdf, Stand 1.7.2015]
  • Rehbein, I. & Schalowski, S. (2014): STTS goes Kiez ‐ Experiments on Annotating and Tagging Urban Youth Language. Journal for Language Technology and Computational Linguistics 28: 199-227. [verfügbar unter: http://www.jlcl.org/2013_Heft1/8Rehbein.pdf, Stand 1.7.2015]
  • Rehbein, I. (2014): Wortartenannotation im Kiezdeutschkorpus (KiDKo 1.0) – Draft [verfügbar unter: http://www.kiezdeutschkorpus.de/files/kidko/downloads/POS-KiDKo.pdf, Stand 1.7.2015]

Deutsche Mundarten: ehemalige deutsche Ostgebiete (OS)

Materialquelle

  • Geplante Tonbandaufnahmen ostdeutscher Mundarten (Arten: Erzählung, Vortrag, Vorlesen, Standardtext) in den jeweiligen Wohnungen der Sprecher
  • Realisierung: Face-to-face
  • 987 ältere Sprecher ost- und südostdeutscher Dialekte (Übersiedler), die den Sprachstand vor 1945 repräsentieren

Datum

Tonbandaufnahmen von 1962-1965

Korpusumfang

981 Aufnahmen (Gesamtdauer: 460 Stunden, 52 Minuten), einzelne Aufnahmen: 5 Minuten, 19 Sekunden bis 1 Stunde, 16 Minuten

280 Transkriptionen (mit dem Ton synchronisiert)

Zusatzmaterial:

  • Transkriptionskonventionen
  • Themenliste
  • Liste der sprachlichen Besonderheiten
  • Wortlisten
  • Lemmalisten
  • Listen der Berufe der Sprecher

Annotationsebenen

  • Transkription: an alter Ortografie orientierte hochsprachliche Übertragung
  • Erläuterungen der Transkribenten
  • Lemmatisierung
  • POS-Tagging

Formate

Audio: RIFF-WAVE RIFF (PCM) 44.100 Hz 16 Bit

Transkripte: XML (UTF-8)

Zusatzmaterial: PDF (Ansi), TXT (UTF-8)

Lizenz

nach Anmeldung frei zugänglich unter http://dgd.ids-mannheim.de

Beispiele

http://dgd.ids-mannheim.de:8080/dgd/pragdb.dgd_extern.corpora?v_session_id=91179580965177C175A8A4097C4104A9&v_doctype=t&v_corpus=OS--&v_doc_id=OS--_E_00001_SE_01_T_01

http://dgd.ids-mannheim.de:8080/dgd/pragdb.dgd_extern.corpora?v_session_id=91179580965177C175A8A4097C4104A9&v_doctype=z&v_corpus=OS--&v_doc_id=OS--_Z_07_Lemmaliste_Frequenz.txt

Einsatzmöglichkeiten

  • Dialektforschung
  • lexikalische Untersuchungen
  • linguistische Forschung

Copyright

...