Introduction: Corpora of (modern) German

Eine annotierte Liste von modernen linguistischen Ressourcen

Alcohol Language Corpus - ALC
Deutscher Wortschatz
Deutsches Referenzkorpus (DeReKo)
DIRNDL-Korpus
DWDS-Kernkorpus
DWDS-Kernkorpus des 20./21. Jahrhunderts
Falko
HEMPEL
KiezDeutsch-Korpus (KiDKo)
SmartKom
TüBa-D/S
TüBa-D/Z
Wikipedia-Korpus (DeReKo - W - wpd11)

Review Structure

Liste der Quellen

Clemens Ahrens: DWDS-Kernkorpus
Andrei Beliankou: TüBa-D/Z
Juliane Bredack: Deutsches Referenzkorpus (DeReKo)
Pia Chau: TüBa-D/S
Roman Dawidow: DWDS Kernkorpus des 20./21. Jahrhunderts
Katharina Dietz: Wikipedia-Korpus (DeReKo - Tagged C)
Gulchehra Kahhorova: SmartKom
Melanie Kleefisch: DIRNDL-Korpus
Nikola Koczuba: EK-Korpus (Elizitierte Konfliktgespräche)
Christina Lang: OS-Korpus (Deutsche Mundarten: ehemalige deutsche Ostgebiete)
Stephan Lehmler: Alcohol Language Corpus - ALC
Sarah Schneider: TIGER-Baumbank
Ursula Schultze: Deutscher Wortschatz
Julian Stawecki: Falko
Constanze Tress: KiezDeutsch-Korpus (KiDKo)
Jingmin Wang:

DWDS-Kernkorpus

Materialquelle

- Zeitung				ca. 27%
- Belletristik			ca. 26%
- Wissenschaft			ca. 22%
- Gebrauchsliteratur	ca. 20%
- Transkribierte Texte	ca. 05%

Datum

laufendes Projekt

Korpusumfang

- Tokens: 122.816.010
- Tokens ohne Zahlen und Satzzeichen: 100.600.993
- Types: 2.224.542
- Dokumente: 79.830

Annotationsebenen

- Morphologie (TAGH-Morphologie, DWDS-Eigennamenerkenner)
- Syntax (Dependenzparser SynCoP)

Formate

XML, nach TEI-Richtlinien

Lizenz

Nutzungsvereinbarung mit Verlagen und privaten Textgebern, d.h Registrierung für einige Texte notwendig

Beispiele

Abfrage: Linguistik
Filter aktiv: 
Sortierung: desc_date

Trefferanzahl: 136 Sätze, davon anzeigbar: 115 Sätze


1.)	1999	Gebrauchsliteratur	Schwanitz, Dietrich, Bildung, Frankfurt a.M.: Eichborn 1999, S. 356

Sie wurde erst von dem Begründer der modernen _&_&Linguistik&_&_ gemacht , dem Schweizer Ferdinand de Saussure .


2.)	1998	Wissenschaft	Fath, Rolf, Reclams Lexikon der Opernwelt Band 2, Stuttgart: Reclam 1998, S. 3078

Ab 1971 studierte er in Paris vergleichende Literatur und _&_&Linguistik&_&_ an der École des langues orientales sowie Komposition am Pariser Konservatorium , wo er 1977 den Kompositionspreis von Olivier Messiaens Klasse erhielt .

Einsatzmöglichkeiten

Wörterbuchanalyse (Bedeutung, Etymologie, Synonymie,...) Belegermittlung Statistische Auswertungen: - DWDS-Wortprofil: syntaktische Relationen - DWDS-Wortverlaufskurve: zeitlicher Verlauf der Vorkommenshäufigkeit, auch nach Textsorten

Tüba-D/Z

Materialquelle

z.B. Zeitungstexte

Datum

z.B. 12.2014

Korpusumfang

z.B 70.000 Sätze

Annotationsebenen

z.B. Morphologie, Syntax

Formate

z.B. Folia-XML

Lizenz

z.B. GPL 3

Beispiele

z.B. An/APPR der/ART Oder/NE wurde/VAFIN er/PPER dann/ADV verwendet/VVPP ./$.

Einsatzmöglichkeiten

z.B. Trainieren von statistischen syntaktischen Parsern

DeReKo

Materialquelle

deutschsprachige Textkorpora
belletristische, wissenschaftliche und populärwissenschaftliche Texte, auch Zeitungstexte (vollständig und unveränderte Texte)
mitte 20. Jahrhundert (Texte ab 1956) bis Gegenwart
Korpus ist in eine Menge von Unterkorpora aufgeteilt, weltweit größte Sammlung deutschsprachiger Korpora

Datum

Stand 15.09.2014

Korpusumfang

25 Milliarden Wörter
86 Teilkorpora in 9 Archiven organisiert

Annotationsebenen

morphosyntaktische Annotation
Machinese Phrase Tagger, TreeTagger, Xerox FST

Formate

von Verlagen, Autoren gelieferte Texte in das IDS-Textmodell überführen
große Mengen sehr heterogener Daten in mehreren Arbeitsschritten analysiert und aufwärts konvertiert
Dokumentgrammatik I5
- i5.odd ODD-File mit der TEI P5-Customisierung von I5
- i5.dtd Durch Roma-Stylesheets abgeleitete DTD
- i5.html Durch projekt-spezifisches Stylesheet aus i5.odd abgeleitete HTML-Dokumentation
- i5.xhtml Durch Roma-Stylesheets aus i5.odd abgeleitete HTML-Dokumentation

Lizenz

enthält nur lizenziertes Material
nicht zum Download verfügbar, keine kommerzielle Nutzung, dient ausschließlich zu Forschungszwecken
es bestehen Lizenzverträge zwischen Autoren und Verlagen
alle Korpora IDS-intern und Teile dieser Korpora weltweit öffentlich nutzbar

Beispiele

\par HMP09 Russlands Gasmonopolist {\b Gazprom} pumpt weiter Gas in separaten Pipelines

\par HMP08 PR-Strategie von Apple, mit der es der {\b kalifornische Computerkonzern} schaffte, seinen \par HMP08 schaffte, seinen iPod zum {\b erfolgreichsten Musik-Player} der Welt zu machen.

Einsatzmöglichkeiten

über COSMAS II (Corpus Search Management and Analysis Tool)
komplexe Kollokationsanalysen
linguistische Forschung am IDS
Germanistikforschung
interdisziplinäre Untersuchungen, Fachgebiete Psychologie, Neurologie, Kognitionswissenschaft, Sprachtherapie, Kommunikations- und Medienwissenschaft und Statistik

TüBa-D/S

Materialquelle

spontansprachliche, manuell transliterierte Dialoge

Datum

September 2000

Korpusumfang

ca. 38.000 Sätze bzw. 360.000 Wörter

Annotationsebenen

lexikalische Ebene
phrasale Ebene
Ebene der topologischen Felder
Satzebene

Formate

Negra Export Format (ps)
XML Format
Penn Treebank Format

Beispiele

Einsatzmöglichkeiten

linguistische Forschung

DWDS Kernkorpus des 20./21. Jahrhunderts

Materialquelle

Belletristik (ca. 26%)
Zeitung (ca. 27%)
Wissenschaft (ca. 22%)
Gebrauchsliteratur (ca. 20%)
(Transkribierte) Texte gesprochener Sprache (ca. 5%)

Datum

befindet sich im Aufbau

Korpusumfang

Zwanzigstes Jahrhundert -> Anzahl fortlaufender Textwörter (Tokens) - gesamt: 122.816.010 -> Anzahl fortlaufender Textwörter (Tokens) ohne Zahlen und Satzzeichen: 100.600.993 -> Anzahl verschiedener Wörter (Types): 2.224.542 -> Anzahl Dokumente: 79.830
Einundzwanzigstes Jahrhundert -> Anzahl fortlaufender Textwörter (Tokens): 1.812.243 -> Anzahl fortlaufender Textwörter (Tokens) ohne Zahlen und Satzzeichen: 1.500.844 -> Anzahl der Sätze: 112.683

Annotationsebenen

morphosyntaktisch (STTS)
syntaktisch

Formate

Lizenz

Nutzungsvereinbarung mit Verlagen: -> Diogenes Verlag, Eichborn -> S. Fischer Verlagsgruppe -> Hoffmann & Campe -> Kiepenheuer & Witsch -> K.G. Saur Verlag -> Spiegel -> Ullstein -> ZEIT
Nutzungsvereinbarung mit privaten Textgebern: -> Deutsches Rundfunkarchiev, Digitale Bibliothek
Zur vollständigen Nutzung ist eine Registrierung auf der Webseite erforderlich

Beispiele

siehe:

http://www.dwds.de/?qu=
http://zwei.dwds.de/r

Einsatzmöglichkeiten

linguistische Forschung

Wikipedia-Korpus (DeReKo - Tagged C)

Materialquelle

Wikipedia-Artikel von 2005

Korpusumfang

Texte: 196 854 Wörter: 54 041 081

Annotationsebenen

Liegt im Archiv Tagged-C vor → annotiert durch den Tagger Connexor mit dem Tagset Connexor. Dabei handelt es sich um morphosyntaktische Annotationen Außerdem annotiert durch den TreeTagger (POS) und den Machinese Phrase Tagger (POS)

Formate

Das IDS-Textmodell: i5.odd i5.dtd i5.html i5.xhtml

Lizenz

Keine Herausgabe der Korpustexte, sondern nur Zugriff über CosmasII

Beispiele

WPD   Band 2003 sogar möglich eine Tour durch <B>Japan</> zu machen, wo sie ebenfalls viele Fans

Einsatzmöglichkeiten

Training von Parsern, Linguistische Untersuchungen zu Schriftsprache im Internet, empirische Grundlage für verschiedene linguistische Forschungsarbeiten

SmartKom

Materialquelle

Video- und Audioaufnahmen: 448 multimodale Aufnahmen ('Sessions') von 224 Versuchspersonen, 1 Session = ca. 4,5 min

Datum

Start: 01.09.1999
Abgeschlossen: 30.09.2003
letzte Aktualisierung: 29.02.2012

Korpusumfang

SmartKom Public / SKP 2.2 - 96 Sprecher - 172 Aufnahme-Sessions - Szenario: Public - Domänen: 'Cinema', 'Fax' (Hauptanwendung) und 'Restaurant', 'Telephone', 'Email' (Nebenanwendung)
SmartKom Mobil / SKM 1.2 - 73 Sprecher - 146 Aufnahme-Sessions - Szenario: Mobil - Domänen: 'Sehenswürdigkeiten', 'Navigation' (Hauptanwendung) und 'Telephon', 'Parkplatzsuche' (Nebenanwendung)
SmartKom Home / SKH 1.1 - 65 Sprecher - 130 Aufnahme-Sessions - Szenario: Home - Domänen: 'Fernsehen', 'Video' (Hauptanwendung) und 'Terminplanung', 'Musikauswahl' (Nebenanwendung)
SmartKom Audio / SKAUDIO 1.1 - Sonderausgabe aller Audio-Kanäle der SmartKom Korpora - 224 Sprecher - 448 Aufnahme-Sessions - Szenario: Public, Home, Mobil

Annotationsebenen

Transliteration (orthographische und prosodische Transkription, automatische Validation)
2D Gestik (Emotion- und Gestik-Labeling)
User-State
Turn-Segmentierung

Formate

Audio- und Videoformate, verfügbar auf DVD

Lizenz

Beispiele

SmartKom Public Aufnahme (AVI, 320MB) - w406_pxg: http://www.bas.uni-muenchen.de/forschung/Bas/BasSKVIDEO/w406_pxg.avi SK Public, Vierfachansicht (G track): Gesicht, Seite, System-Output + SIVIT, SIVIT (Infrarot), Domain: Hotel, Fax, Telefon, Restaurant, Navigation.
Transkript - w406_px.trl: http://www.bas.uni-muenchen.de/forschung/Bas/BasSKVIDEO/w406_px.trl
Recording Protocol - w406_px.rpr: http://www.bas.uni-muenchen.de/forschung/Bas/BasSKVIDEO/w406_px.rpr
Speaker Protocol - AJK.spr: http://www.bas.uni-muenchen.de/forschung/Bas/BasSKVIDEO/AJK.spr

Einsatzmöglichkeiten

Untersuchung der Mensch-Maschine-Interaktion
Auf dem Korpus-Basis von SmartKom wurden 3 Multimodale Dialogsysteme aufgebaut:

SmartKom-Public: Multimodale Kommunikationszelle, Informationskiosk
SmartKom-Mobil: Mobiler Kommunikationsassistent
SmartKom-Home: Intuitives Arbeiten mit dem Computer

DIRNDL-Korpus

Materialquelle

DIRNDL =(D)iskurs-(I)nformations-(R)adio-(N)achrichten-(D)atenbank für (L)inguistische Analysen
stündlich gesendete Radio-Nachrichten von "Deutschland-Radio
mündliche und schriftliche Versionen

Datum

release: 2012
release: 26.-31. Mai 2014

Korpusumfang

ca. 50.000 Wörter
Audiodateien im Umfang von ca. 5 Stunden (vom 25.- 27.03.2007)
9 Sprecher (5 m, 4 w)
schriftliche Manuskripte, bestehend aus insgesamt 3221 Sätzen

Annotationsebenen

release (DIRNDL)

schriftlich: Syntax mithilfe des XLE Parsers, Informationsstatus (Grad an Gegebenheit: gegebene o. neue Information)(automatisch)
mündlich: pitch-Akzente und prosodische Phrasengrenzen mithilfe von GToBI (manuell)
außerdem: Verbindung zwischen mündlich und schriftlich (mithilfe von relational
database management system PostgreSQL) --> Vergleich zwischen einzelnen Ebenen, z.B. Zusammenhang zwischen Prosodie und Syntax

release (extended version: DIRNDL anaphora)

zusätzlich coreference, part-of-speech und morphologische tags, Dependenz, Named-Entities

Formate

TIGER-XML mithilfe von TIGERRegistry
GrAF XML
konvertierbar in verschiedene tool input-Formate. z.B. PAULA XML
verfügbar in Tabellenformaten
SemEval
CoNLL

Lizenz

frei verfügbar unter http://www.ims.uni-stuttgart.de/data/dirndl

Beispiele

	#begin document dlf-nachrichten-200703250000 (part 000)
	dlf-nachrichten-200703250000  0  1   1  Der             der             ART     case=nom|number=sg|gender=masc            *        2  NK  (VROOT(S(NP*    |NONE|     NONE  -          (R-UNUSED-KNOWN$2    (1
	dlf-nachrichten-200703250000  0  1   2  Iran            iran            NE      case=nom|number=sg|gender=masc            *        3  SB             *)   |H*L|      NONE  (L-NEW$1)  R-UNUSED-KNOWN$2)    1)
	dlf-nachrichten-200703250000  0  1   3  will            wollen          VMFIN   number=sg|person=3|tense=pres|mood=ind    *        0  --             *    |NONE|     NONE  -          -                    - 
		   -                    - 
	...
	----------------------------------

	dlf-nachrichten-200703250000  0  3   1  Der             der             ART    case=nom|number=sg|gender=masc             *        2  NK  (VROOT(S(NP*     |NONE|      NONE  -                             (R-UNUSED-KNOWN$7                        - 
	dlf-nachrichten-200703250000  0  3   2  Westen          westen          NN     case=nom|number=sg|gender=masc             *        3  SB             *)    |L*H|       -     (L-NEW$16)                    R-UNUSED-KNOWN$7)                        - 
	dlf-nachrichten-200703250000  0  3   3  verdächtigt     verdächtigen    VVFIN  number=sg|person=3|tense=pres|mood=ind     *        0  --             *     |NONE|      NONE  (L-NEW$15)                    -                                        - 
	dlf-nachrichten-200703250000  0  3   4  den             der             ART    case=acc|number=sg|gender=masc             *        5  NK          (NP*     |NONE|      NONE  -                             (R-GIVEN$12                              (1
	dlf-nachrichten-200703250000  0  3   5  Iran            iran            NE     case=acc|number=sg|gender=masc             *        3  OA             *))   |L*H|       -     (L-GIVEN-SAME$19$1-2-2)       R-GIVEN$12)                              1)
	dlf-nachrichten-200703250000  0  3   6  ,               --              $,     _                                          *        3  --             *     N/A         N/A   -  

	...                           -                                        -

Einsatzmöglichkeiten

Evaluation von automatischen Koreferenz- und Bridging-Lösungen
Bedeutungsunterschiede aufgrund von Prosodie (Informationsstatus)
Trainingskorpus für automatisches Prosodie-Annotationen

Elizitierte Konfliktgespräche (EK)

Materialquelle

Aufnahmen von Konfliktgesprächen zwischen Müttern und ihren Töchtern

Datum

15.3.1988-30.6.1992

Korpusumfang

138 Aufnahmen von 214 Sprecherinnen, Gesamtdauer 12h 23min
138 Transkripte (162123 Tokens)

Annotationsebenen

orthographische Transkription (Partiturschreibweise) mit zusätzlichen Notationen
Metadaten
Themenliste

Formate

Audio: RIFF-WAVE (PCM) 44.100 Hz 16Bit
Transkripte: PDF (UTF-8)

###Lizenz nach einmaliger Registrierung webbasierter Zugriff auf ausgewählte Teile der Sammlung des Archivs für Gesprochenes Deutsch (AGD) für die Verwendung in Forschung und Lehre http://dgd.ids-mannheim.de:8080/dgd/pragdb.dgd_extern.welcome

Beispiele

http://dgd.ids-mannheim.de:8080/dgd/pragdb.dgd_extern.corpora?v_session_id=EB1B4C7CC2EA5C6ECF2E9BDEBB72691C&v_doctype=e&v_corpus=EK--&v_doc_id=EK--_E_00001

Einsatzmöglichkeiten

Diskurs-/Gesprächsanalyse
pädagogischer Kontext

...

Alcohol Language Corpus - ALC

Materialquelle

Laboraufnahmen nüchterner und betrunkener Versuchspersonen.

Datum

erste komplette Version: 04.11.2010, letztes Update(version 2.4): 02.12.2014

Korpusumfang

15180 Aufnahmen von 162 Sprechern. Insgesamt 1456556 phonetische Segmente.

Annotationsebenen

Metadaten(Datum, Sprecher, Blutalkoholwert etc.), phonetische Segmentierung, orthografische Transkription, kanonische Aussprache, Fehler/Normabweichungen(Abbrüche, dialektale Merkmale,unverständliche Wörter, Störgeräusche etc.), Kommentare

Formate

BAS Partitur Format,TextGrid, Emu hierarchical database files, Metadaten: SpeechDat, Audio: WAVE RIFF 44100Hz 16bit

Lizenz

Beispiele

z.B. die K"ochin mit dem -/#Tufenk/- -/#tu/- -/#topf/- <"ah> -/#Tupfenkoch/- <P> Tupfenkopftuch kocht Karpfen in dem Kupferkochtopf

Einsatzmöglichkeiten

z.B. Automatische Erfassung des Sprecherzustandes; Phonetische oder psycholinguistische Studien

TIGER

Materialquelle

Zeitungstexte der Frankfurter Rundschau

Datum

1999-2004

Korpusumfang

900,000 Tokens, 50,000 Sätze

Annotationsebenen

Wortart, Lemma, Morphosyntax (STTS) Phrasenkategorien: S, NP, VP, … Syntaktische Funktionen: Subjekt, Objekt, Relativsatz, …

Formate

TIGER-XML Format Negra export Format

Lizenz

frei zugänglich Lizenzvereinbarungen: http://www.ims.uni-stuttgart.de/forschung/ressourcen/korpora/TIGERCorpus/license/htmlicense.html

Beispiele

(im TIGER-xml Format)

<terminals>
 <t id="s4228_1" word="In" pos="APPR" />
 <t id="s4228_2" word="Japan" pos="NE" />
 <t id="s4228_3" word="wird" pos="VAFIN" />
 <t id="s4228_4" word="offenbar" pos="ADJD" />
 <t id="s4228_5" word="die" pos="ART" />
 <t id="s4228_6" word="Fusion" pos="NN" />
 <t id="s4228_7" word="der" pos="ART" />
 <t id="s4228_8" word="Geldkonzerne" pos="NN" />
 <t id="s4228_9" word="Daiwa" pos="NE" />
 <t id="s4228_10" word="und" pos="KON" />
 <t id="s4228_11" word="Sumitomo" pos="NE" />
 <t id="s4228_12" word="zur" pos="APPRART" />
 <t id="s4228_13" word="größten" pos="ADJA" />
 <t id="s4228_14" word="Bank" pos="NN" />
 <t id="s4228_15" word="der" pos="ART" />
 <t id="s4228_16" word="Welt" pos="NN" />
 <t id="s4228_17" word="vorbereitet" pos="VVPP" />
 <t id="s4228_18" word="." pos="$." />
</terminals>

 <terminals>
      <t id="s4231_1" word="In" lemma="in" pos="APPR" morph="--" />
      <t id="s4231_2" word="Japan" lemma="Japan" pos="NE" morph="Dat.Sg.Neut" />
      <t id="s4231_3" word="wird" lemma="werden" pos="VAFIN" morph="3.Sg.Pres.Ind" />
      <t id="s4231_4" word="offenbar" lemma="offenbar" pos="ADJD" morph="Pos" />
      <t id="s4231_5" word="die" lemma="der" pos="ART" morph="Nom.Sg.Fem" />
      <t id="s4231_6" word="Fusion" lemma="Fusion" pos="NN" morph="Nom.Sg.Fem" />
      <t id="s4231_7" word="der" lemma="der" pos="ART" morph="Gen.Pl.Masc" />
      <t id="s4231_8" word="Geldkonzerne" lemma="Geldkonzern" pos="NN" morph="Gen.Pl.Masc" />
      <t id="s4231_9" word="Daiwa" lemma="Daiwa" pos="NE" morph="Nom.Sg.*" />
      <t id="s4231_10" word="und" lemma="und" pos="KON" morph="--" />
      <t id="s4231_11" word="Sumitomo" lemma="Sumitomo" pos="NE" morph="Nom.Sg.*" />
      <t id="s4231_12" word="zur" lemma="zu" pos="APPRART" morph="Dat.Sg.Fem" />
      <t id="s4231_13" word="größten" lemma="groß" pos="ADJA" morph="Sup.Dat.Sg.Fem" />
      <t id="s4231_14" word="Bank" lemma="Bank" pos="NN" morph="Dat.Sg.Fem" />
      <t id="s4231_15" word="der" lemma="der" pos="ART" morph="Gen.Sg.Fem" />
      <t id="s4231_16" word="Welt" lemma="Welt" pos="NN" morph="Gen.Sg.Fem" />
      <t id="s4231_17" word="vorbereitet" lemma="vorbereiten" pos="VVPP" morph="Psp" />
      <t id="s4231_18" word="." lemma="--" pos="$." morph="--" />
    </terminals>

Einsatzmöglichkeiten

Deutscher Wortschatz

Materialquelle

Zeitungstexte, Webseiten, Wikipedia

Datum

* Start des Projekts: 1997
* Hochzeit: 2001
* heute abgeschlossen, wird nur noch gepflegt bzw. Material gesammelt

Korpusumfang

Verfügbar sind 233 Korpus-basierte monolinguale Wörterbücher in 219 Sprachen
Beispiele der Korpusgröße verschiedener Sprachen:
| Deutsch             | Englisch            | Französisch           | Spanisch            | Chinesisch            | Okzitansisch (nach 1500) |
|---------------------|---------------------|-----------------------|---------------------|-----------------------|--------------------------|
| Material: 2011      | Material: 2002      | Material: 2012        | Material: 2011      | Material: 2007 - 2009 | Material: 2007           |
| Sätze: 26.142.898   | Sätze: 49.628.893   | Sätze: 74.823.426     | Sätze: 16.899.636   | Sätze: 19.308.704     | Sätze: 16.895            |
| Types: 5.876.655    | Types: 4.785.862    | Types: 7.873.935      | Types: 1.913.986    | Types: 1.295.315      | Types: 44.064            |
| Tokens: 425.703.278 | Tokens: 926.766.504 | Tokens: 1.468.766.604 | Tokens: 391.044.224 | Tokens: 575.138.135   | Tokens: 301.449          |

Annotationsebenen

Wortfrequenzen
Beispielsätze
Kookkurenzen (basierend auf left- und right-neighbours in jeweiligem Satz)
Semantic map-Visualisierung der Kookkurenzen
Synonyme
Dornseiff-Sets (Sachgruppen)

Formate

Online: http://wortschatz.uni-leipzig.de/
PDML (Presentation model description language)

Lizenz

Copyright Leipzig Corpora Collection

Beispiele

Ursula: http://corpora.informatik.uni-leipzig.de/res.php?corpusId=deu_newscrawl_2011&word=Ursula
Haus: http://corpora.informatik.uni-leipzig.de/res.php?corpusId=deu_newscrawl_2011&word=Haus
Hausarbeit: http://corpora.informatik.uni-leipzig.de/res.php?corpusId=deu_newscrawl_2011&word=Hausarbeit

Einsatzmöglichkeiten

Nachschlagewerk, kontrastive Linguistik, quantitative Linguistik

Falko

Materialquelle

handschriftlich und digital verfasste Texte von fortgeschrittenen Lernern und Muttersprachlern der deutschen Sprache
Texte: Zusammenfassungen, argumentative Aufsätze
Themen: Feminismus, Entlohnung, Studium, Kriminalität
Muttersprachen L2: über 35, davon die größten Gruppen in Englisch, Französisch, Russisch und Polnisch
Voraussetzungen der Textproduktion: Keine Hilfsmittel, 90 Minuten Bearbeitungszeit

Datum

Beginn der Datenerhebungen (seit 2004)
FALKO Version 1 (18. Oktober 2007)
FALKO Version 2 (26. September 2012)

Korpusumfang

Gesamtkorpus besteht aus 6 Subkorpora (insgesamt 381.447 Tokens)

Lernerkorpus
FalkoSummaryL2 V1.2 (98 Lerner, 107 Texte, 40.923 Tokens)
FalkoEssayL2 V2.3 (186 Lerner, 248 Texte, 122.778 Tokens)
FalkoEssayL2WHIG V2.0 (117.189 Tokens)
Kontrollkorpus Muttersprache
FalkoSummaryL1 V1.2 (33 Muttersprachler, 36 Texte, 21.184 Tokens)
FalkoEssayL1 V2.3 (95 Muttersprachler, 95 Texte, 68.491 Tokens)
Vorlagenkorpus
FalkoSummaryVL (12 Texte, 11.114 Tokens)
Metadaten: Muttersprache, Alter, Geschlecht, akademischer Hintergrund (Schule, Semester, Fach, etc.), Sprachbiografie (beherrschte Fremdsprachen, Zeitraum, Auslandsaufenthalte, etc.)

Annotationsebenen

Wortarten und Lemmata
Zielhypothesen
minimale ZH: nah an Lernerstruktur: Orthographie, Morphosyntax
erweiterte ZH: nah an Lernerintention: Semantik, Pragmatik, Stilistik
Lernerfehler
korrigierte Wortarten
Kommentare des Transkribenten
Es besteht die Möglichkeit weitere Annotationsebenen zu ergänzen und ebenenunabhängig zu bearbeiten (multi-layer stand-off annotation)

Formate

Zugang Online auf: http://korpling.german.hu-berlin.de/falko-suche/ (ANNIS3-Korpus-Suchtool)
Original-Textdokumente
Excel-Tabellen
PAULA-XML

Lizenz

Creative Commons Namensnennung 3.0 Unported Lizenz
Info: https://creativecommons.org/licenses/by/3.0/deed.de

Beispiele

| tok      | Sie      | haben     | sich      | dazu     | gewöhnt   |
| ZH1      | Sie      | haben     | sich      | daran    | gewöhnt   |
| ZH1Diff  |          |           |           | CHA      |           |
| ZH1lemma | Sie/sie  | haben     | er/sie/es | daran    | gewöhnen  |
| ZH1pos   | PPER     | VAFIN     | PRF       | PAV      | VVPP      |

Einsatzmöglichkeiten

Fehleranalyse (Abweichungen von der Zielsprache): Welche Fehler sind lernertypisch? Sind Fehler von der Muttersprache der Lerner abhängig?
Interlinguale kontrastive Untersuchungen: Vergleich von zielsprachlichen Strukturen (Grammatik) in der Zielsprache und der Muttersprache

KiezDeutsch-Korpus (KiDko)

Materialquelle

1.) Korpus

spoken language corpus
Informelle, spontansprachliche Gesprächsdaten von Berliner Jugendlichen nicht-deutscher Herkunftssprache (9. Klasse, 14-17 Jahren), Selbstaufnahmen im Freundeskreis
Sprachen: v.a. Deutsch und Türkisch

2.) thematische Klammer

Kiezdeutsch/„hood German“ (Rehbein/Schalowski/Wiese 2014) als Multiethnolekt urbaner Lebensräume
Zentrale Elemente: Code-Mixing und –Switching, Abweichungen vom Standard auf phonetischer, morphosyntaktischer und lexikalischer Ebene

Datum

ab 2008: Beginn Korpusaufbau (Audioaufnahmen, Transkription, POS-Tagging)
KiDKo Version 1.0: Frühling 2014
Aktuelle Projektphase: Syntaktische Aufbereitung (Annotation topologischer Felder)

Korpusumfang

Korpus	Beschreibung
Hauptkorpus	~ 228.000 Token; rd. 48 h Aufnahmen,
17 Sprecher/innen, Multiethnisches Wohngebiet (Berlin-Kreuzberg)
Kontrollkorpus	~ 105.000 Token; rd. 18 h Aufnahme
6 Sprecher/innen (5 männlich, 1 weiblich)
Monoethnisches Wohngebiet (Berlin-Hellersdorf)

Annotationsebenen

Kürzel	Beschreibung
nv	nonverbale Ebene
v	Transkriptionsebene (GAT2): Prosodische Merkmale (Betonungen u.a.)
n	Normalisierungsebene (Default-Suche)
POS	Wortartenebene
- Erweiterung STTS für gesprochene Sprache (Partikel, Abbrüche)
- Entwicklung eines verbesserten Taggers für informelles gesprochenes Deutsch
Tr	türkische Transkriptionsebene
trnorm	türkische Normalisierungsebene
trdtwwue	deutsche Übersetzung (Wort für Wort)
trdtue	deutsche Übersetzung (frei)

Metainformationen:

Sprecherkürzel, Geschlecht, Alter, Wohngebiet, Familiensprache, dominante Sprache

Formate

wav (audio), EXMARaLDA-XML (EXMARaLDA Partitur Editor als Darstellungs- und Transkriptionssystem)

Lizenz

COPYRIGHT: SFB 632 Informationsstruktur, Universität Potsdam
Zugang zu den EXMARaLDA-Transkripten über ANNIS (Login-Daten auf Anfrage beim SFB 632: http://www.sfb632.uni-potsdam.de/b6/license.php)
Zugang zu den Audiodateien aus rechtlichen Gründen nur vor Ort

Beispiele

Suche nach türkischem Einzellemma: tr=/lan/

Einzellemma

Suche nach POS-Tag-Abfolge: POS=/ADV/ & POS=/ADJD/ & POS=/ADJD/ & #1 . #2 & #2 . #3

POS-Tag-Abfolge

Suche nach speziellem (Berliner) Kiezdeutsch-Phänomen (Koronalisierung): n=“isch“

Quelle: Rehbein/Schalowski/Wiese (2014)

Einsatzmöglichkeiten

Nur bei Volltextrecherche: Gesprächsforschung
Nur bei Zugang zu kompletten Audiofiles: Intonationsforschung
Trainingskorpus für POS-Tagger gesprochener Sprache
Soziolinguistik/Jugendsprache (auch kontrastiv)
Sprachkontaktforschung
Varietätenlinguistik/Ethnolektforschung
Gegenwärtiger Sprachwandel

Quellen

Korpus

Wiese, H.; Rehbein, I.; Schalowski, S.; Freywald, U. & Mayr, K. (2010ff): KiDKo - Ein Korpus spontaner Unterhaltungen unter Jugendlichen im multiethnischen und monoethnischen urbanen Raum

Literatur

Rehbein, I.; Schalowski, S. & Wiese, H. (2014): The KiezDeutsch Korpus (KiDKo) Release 1.0. In: Proceedings of the 9th International Conference on Language Resources and Evaluation (LREC), May 24-31, 2014. Reykjavik, Iceland. [verfügbar unter: http://www.sfb632.uni-potsdam.de/~rehbein/papers/lrec_camera-ready.pdf, Stand 1.7.2015]
Rehbein, I. & Schalowski, S. (2014): STTS goes Kiez ‐ Experiments on Annotating and Tagging Urban Youth Language. Journal for Language Technology and Computational Linguistics 28: 199-227. [verfügbar unter: http://www.jlcl.org/2013_Heft1/8Rehbein.pdf, Stand 1.7.2015]
Rehbein, I. (2014): Wortartenannotation im Kiezdeutschkorpus (KiDKo 1.0) – Draft [verfügbar unter: http://www.kiezdeutschkorpus.de/files/kidko/downloads/POS-KiDKo.pdf, Stand 1.7.2015]

Deutsche Mundarten: ehemalige deutsche Ostgebiete (OS)

Materialquelle

Geplante Tonbandaufnahmen ostdeutscher Mundarten (Arten: Erzählung, Vortrag, Vorlesen, Standardtext) in den jeweiligen Wohnungen der Sprecher
Realisierung: Face-to-face
987 ältere Sprecher ost- und südostdeutscher Dialekte (Übersiedler), die den Sprachstand vor 1945 repräsentieren

Datum

Tonbandaufnahmen von 1962-1965

Korpusumfang

981 Aufnahmen (Gesamtdauer: 460 Stunden, 52 Minuten), einzelne Aufnahmen: 5 Minuten, 19 Sekunden bis 1 Stunde, 16 Minuten

280 Transkriptionen (mit dem Ton synchronisiert)

Zusatzmaterial:

Transkriptionskonventionen
Themenliste
Liste der sprachlichen Besonderheiten
Wortlisten
Lemmalisten
Listen der Berufe der Sprecher

Annotationsebenen

Transkription: an alter Ortografie orientierte hochsprachliche Übertragung
Erläuterungen der Transkribenten
Lemmatisierung
POS-Tagging

Formate

Audio: RIFF-WAVE RIFF (PCM) 44.100 Hz 16 Bit

Transkripte: XML (UTF-8)

Zusatzmaterial: PDF (Ansi), TXT (UTF-8)

Lizenz

nach Anmeldung frei zugänglich unter http://dgd.ids-mannheim.de

Beispiele

http://dgd.ids-mannheim.de:8080/dgd/pragdb.dgd_extern.corpora?v_session_id=91179580965177C175A8A4097C4104A9&v_doctype=t&v_corpus=OS--&v_doc_id=OS--_E_00001_SE_01_T_01

http://dgd.ids-mannheim.de:8080/dgd/pragdb.dgd_extern.corpora?v_session_id=91179580965177C175A8A4097C4104A9&v_doctype=z&v_corpus=OS--&v_doc_id=OS--_Z_07_Lemmaliste_Frequenz.txt

Einsatzmöglichkeiten

Dialektforschung
lexikalische Untersuchungen
linguistische Forschung

Copyright

...

corpora corpora copied to clipboard

Metadata

Introduction: Corpora of (modern) German

Table of Contents

Review Structure

Liste der Quellen

DWDS-Kernkorpus

Materialquelle

Datum

Korpusumfang

Annotationsebenen

Formate

Lizenz

Beispiele

Einsatzmöglichkeiten

Tüba-D/Z

Materialquelle

Datum

Korpusumfang

Annotationsebenen

Formate

Lizenz

Beispiele

Einsatzmöglichkeiten

DeReKo

Materialquelle

Datum

Korpusumfang

Annotationsebenen

Formate

Lizenz

Beispiele

Einsatzmöglichkeiten

TüBa-D/S

Materialquelle

Datum

Korpusumfang

Annotationsebenen

Formate

Beispiele

Einsatzmöglichkeiten

DWDS Kernkorpus des 20./21. Jahrhunderts

Materialquelle

Datum

Korpusumfang

Annotationsebenen

Formate

Lizenz

Beispiele

Einsatzmöglichkeiten

Wikipedia-Korpus (DeReKo - Tagged C)

Materialquelle

Korpusumfang

Annotationsebenen

Formate

Lizenz

Beispiele

Einsatzmöglichkeiten

SmartKom

Materialquelle

Datum

Korpusumfang

Annotationsebenen

Formate

Lizenz

Beispiele

Einsatzmöglichkeiten

DIRNDL-Korpus

Materialquelle

Datum

Korpusumfang

Annotationsebenen

Formate

Lizenz

Beispiele

Einsatzmöglichkeiten

Elizitierte Konfliktgespräche (EK)

Materialquelle

Datum

Korpusumfang

corpora
corpora copied to clipboard