corpora
corpora copied to clipboard
Eine annotierte Liste von modernen linguistischen Ressourcen
Introduction: Corpora of (modern) German
Eine annotierte Liste von modernen linguistischen Ressourcen
Table of Contents
- Alcohol Language Corpus - ALC
- Deutscher Wortschatz
- Deutsches Referenzkorpus (DeReKo)
- DIRNDL-Korpus
- DWDS-Kernkorpus
- DWDS-Kernkorpus des 20./21. Jahrhunderts
- Falko
- HEMPEL
- KiezDeutsch-Korpus (KiDKo)
- SmartKom
- TüBa-D/S
- TüBa-D/Z
- Wikipedia-Korpus (DeReKo - W - wpd11)
Review Structure
Liste der Quellen
- Clemens Ahrens: DWDS-Kernkorpus
- Andrei Beliankou: TüBa-D/Z
- Juliane Bredack: Deutsches Referenzkorpus (DeReKo)
- Pia Chau: TüBa-D/S
- Roman Dawidow: DWDS Kernkorpus des 20./21. Jahrhunderts
- Katharina Dietz: Wikipedia-Korpus (DeReKo - Tagged C)
- Gulchehra Kahhorova: SmartKom
- Melanie Kleefisch: DIRNDL-Korpus
- Nikola Koczuba: EK-Korpus (Elizitierte Konfliktgespräche)
- Christina Lang: OS-Korpus (Deutsche Mundarten: ehemalige deutsche Ostgebiete)
- Stephan Lehmler: Alcohol Language Corpus - ALC
- Sarah Schneider: TIGER-Baumbank
- Ursula Schultze: Deutscher Wortschatz
- Julian Stawecki: Falko
- Constanze Tress: KiezDeutsch-Korpus (KiDKo)
- Jingmin Wang:
DWDS-Kernkorpus
Materialquelle
- Zeitung ca. 27%
- Belletristik ca. 26%
- Wissenschaft ca. 22%
- Gebrauchsliteratur ca. 20%
- Transkribierte Texte ca. 05%
Datum
laufendes Projekt
Korpusumfang
- Tokens: 122.816.010
- Tokens ohne Zahlen und Satzzeichen: 100.600.993
- Types: 2.224.542
- Dokumente: 79.830
Annotationsebenen
- Morphologie (TAGH-Morphologie, DWDS-Eigennamenerkenner)
- Syntax (Dependenzparser SynCoP)
Formate
XML, nach TEI-Richtlinien
Lizenz
Nutzungsvereinbarung mit Verlagen und privaten Textgebern, d.h Registrierung für einige Texte notwendig
Beispiele
Abfrage: Linguistik
Filter aktiv:
Sortierung: desc_date
Trefferanzahl: 136 Sätze, davon anzeigbar: 115 Sätze
1.) 1999 Gebrauchsliteratur Schwanitz, Dietrich, Bildung, Frankfurt a.M.: Eichborn 1999, S. 356
Sie wurde erst von dem Begründer der modernen _&_&Linguistik&_&_ gemacht , dem Schweizer Ferdinand de Saussure .
2.) 1998 Wissenschaft Fath, Rolf, Reclams Lexikon der Opernwelt Band 2, Stuttgart: Reclam 1998, S. 3078
Ab 1971 studierte er in Paris vergleichende Literatur und _&_&Linguistik&_&_ an der École des langues orientales sowie Komposition am Pariser Konservatorium , wo er 1977 den Kompositionspreis von Olivier Messiaens Klasse erhielt .
Einsatzmöglichkeiten
Wörterbuchanalyse (Bedeutung, Etymologie, Synonymie,...) Belegermittlung Statistische Auswertungen: - DWDS-Wortprofil: syntaktische Relationen - DWDS-Wortverlaufskurve: zeitlicher Verlauf der Vorkommenshäufigkeit, auch nach Textsorten
Tüba-D/Z
Materialquelle
z.B. Zeitungstexte
Datum
z.B. 12.2014
Korpusumfang
z.B 70.000 Sätze
Annotationsebenen
z.B. Morphologie, Syntax
Formate
z.B. Folia-XML
Lizenz
z.B. GPL 3
Beispiele
z.B. An/APPR der/ART Oder/NE wurde/VAFIN er/PPER dann/ADV verwendet/VVPP ./$.
Einsatzmöglichkeiten
z.B. Trainieren von statistischen syntaktischen Parsern
DeReKo
Materialquelle
- deutschsprachige Textkorpora
- belletristische, wissenschaftliche und populärwissenschaftliche Texte, auch Zeitungstexte (vollständig und unveränderte Texte)
- mitte 20. Jahrhundert (Texte ab 1956) bis Gegenwart
- Korpus ist in eine Menge von Unterkorpora aufgeteilt, weltweit größte Sammlung deutschsprachiger Korpora
Datum
Stand 15.09.2014
Korpusumfang
- 25 Milliarden Wörter
- 86 Teilkorpora in 9 Archiven organisiert
Annotationsebenen
- morphosyntaktische Annotation
- Machinese Phrase Tagger, TreeTagger, Xerox FST
Formate
- von Verlagen, Autoren gelieferte Texte in das IDS-Textmodell überführen
- große Mengen sehr heterogener Daten in mehreren Arbeitsschritten analysiert und aufwärts konvertiert
- Dokumentgrammatik I5
- i5.odd ODD-File mit der TEI P5-Customisierung von I5
- i5.dtd Durch Roma-Stylesheets abgeleitete DTD
- i5.html Durch projekt-spezifisches Stylesheet aus i5.odd abgeleitete HTML-Dokumentation
- i5.xhtml Durch Roma-Stylesheets aus i5.odd abgeleitete HTML-Dokumentation
Lizenz
- enthält nur lizenziertes Material
- nicht zum Download verfügbar, keine kommerzielle Nutzung, dient ausschließlich zu Forschungszwecken
- es bestehen Lizenzverträge zwischen Autoren und Verlagen
- alle Korpora IDS-intern und Teile dieser Korpora weltweit öffentlich nutzbar
Beispiele
\par HMP09 Russlands Gasmonopolist {\b Gazprom} pumpt weiter Gas in separaten Pipelines
\par HMP08 PR-Strategie von Apple, mit der es der {\b kalifornische Computerkonzern} schaffte, seinen \par HMP08 schaffte, seinen iPod zum {\b erfolgreichsten Musik-Player} der Welt zu machen.
Einsatzmöglichkeiten
- über COSMAS II (Corpus Search Management and Analysis Tool)
- komplexe Kollokationsanalysen
- linguistische Forschung am IDS
- Germanistikforschung
- interdisziplinäre Untersuchungen, Fachgebiete Psychologie, Neurologie, Kognitionswissenschaft, Sprachtherapie, Kommunikations- und Medienwissenschaft und Statistik
TüBa-D/S
Materialquelle
spontansprachliche, manuell transliterierte Dialoge
Datum
September 2000
Korpusumfang
ca. 38.000 Sätze bzw. 360.000 Wörter
Annotationsebenen
- lexikalische Ebene
- phrasale Ebene
- Ebene der topologischen Felder
- Satzebene
Formate
- Negra Export Format (ps)
- XML Format
- Penn Treebank Format
Beispiele
Einsatzmöglichkeiten
linguistische Forschung
DWDS Kernkorpus des 20./21. Jahrhunderts
Materialquelle
- Belletristik (ca. 26%)
- Zeitung (ca. 27%)
- Wissenschaft (ca. 22%)
- Gebrauchsliteratur (ca. 20%)
- (Transkribierte) Texte gesprochener Sprache (ca. 5%)
Datum
- befindet sich im Aufbau
Korpusumfang
-
Zwanzigstes Jahrhundert -> Anzahl fortlaufender Textwörter (Tokens) - gesamt: 122.816.010 -> Anzahl fortlaufender Textwörter (Tokens) ohne Zahlen und Satzzeichen: 100.600.993 -> Anzahl verschiedener Wörter (Types): 2.224.542 -> Anzahl Dokumente: 79.830
-
Einundzwanzigstes Jahrhundert -> Anzahl fortlaufender Textwörter (Tokens): 1.812.243 -> Anzahl fortlaufender Textwörter (Tokens) ohne Zahlen und Satzzeichen: 1.500.844 -> Anzahl der Sätze: 112.683
Annotationsebenen
- morphosyntaktisch (STTS)
- syntaktisch
Formate
- XML
Lizenz
-
Nutzungsvereinbarung mit Verlagen: -> Diogenes Verlag, Eichborn -> S. Fischer Verlagsgruppe -> Hoffmann & Campe -> Kiepenheuer & Witsch -> K.G. Saur Verlag -> Spiegel -> Ullstein -> ZEIT
-
Nutzungsvereinbarung mit privaten Textgebern: -> Deutsches Rundfunkarchiev, Digitale Bibliothek
-
Zur vollständigen Nutzung ist eine Registrierung auf der Webseite erforderlich
Beispiele
siehe:
- http://www.dwds.de/?qu=
- http://zwei.dwds.de/r
Einsatzmöglichkeiten
- linguistische Forschung
Wikipedia-Korpus (DeReKo - Tagged C)
Materialquelle
Wikipedia-Artikel von 2005
Korpusumfang
Texte: 196 854 Wörter: 54 041 081
Annotationsebenen
Liegt im Archiv Tagged-C vor → annotiert durch den Tagger Connexor mit dem Tagset Connexor. Dabei handelt es sich um morphosyntaktische Annotationen Außerdem annotiert durch den TreeTagger (POS) und den Machinese Phrase Tagger (POS)
Formate
Das IDS-Textmodell: i5.odd i5.dtd i5.html i5.xhtml
Lizenz
Keine Herausgabe der Korpustexte, sondern nur Zugriff über CosmasII
Beispiele
WPD Band 2003 sogar möglich eine Tour durch <B>Japan</> zu machen, wo sie ebenfalls viele Fans
Einsatzmöglichkeiten
Training von Parsern, Linguistische Untersuchungen zu Schriftsprache im Internet, empirische Grundlage für verschiedene linguistische Forschungsarbeiten
SmartKom
Materialquelle
Video- und Audioaufnahmen: 448 multimodale Aufnahmen ('Sessions') von 224 Versuchspersonen, 1 Session = ca. 4,5 min
Datum
- Start: 01.09.1999
- Abgeschlossen: 30.09.2003
- letzte Aktualisierung: 29.02.2012
Korpusumfang
- SmartKom Public / SKP 2.2 - 96 Sprecher - 172 Aufnahme-Sessions - Szenario: Public - Domänen: 'Cinema', 'Fax' (Hauptanwendung) und 'Restaurant', 'Telephone', 'Email' (Nebenanwendung)
- SmartKom Mobil / SKM 1.2 - 73 Sprecher - 146 Aufnahme-Sessions - Szenario: Mobil - Domänen: 'Sehenswürdigkeiten', 'Navigation' (Hauptanwendung) und 'Telephon', 'Parkplatzsuche' (Nebenanwendung)
- SmartKom Home / SKH 1.1 - 65 Sprecher - 130 Aufnahme-Sessions - Szenario: Home - Domänen: 'Fernsehen', 'Video' (Hauptanwendung) und 'Terminplanung', 'Musikauswahl' (Nebenanwendung)
- SmartKom Audio / SKAUDIO 1.1 - Sonderausgabe aller Audio-Kanäle der SmartKom Korpora - 224 Sprecher - 448 Aufnahme-Sessions - Szenario: Public, Home, Mobil
Annotationsebenen
- Transliteration (orthographische und prosodische Transkription, automatische Validation)
- 2D Gestik (Emotion- und Gestik-Labeling)
- User-State
- Turn-Segmentierung
Formate
- Audio- und Videoformate, verfügbar auf DVD
Lizenz
COPYRIGHT Universität München
Beispiele
- SmartKom Public Aufnahme (AVI, 320MB) - w406_pxg: http://www.bas.uni-muenchen.de/forschung/Bas/BasSKVIDEO/w406_pxg.avi SK Public, Vierfachansicht (G track): Gesicht, Seite, System-Output + SIVIT, SIVIT (Infrarot), Domain: Hotel, Fax, Telefon, Restaurant, Navigation.
- Transkript - w406_px.trl: http://www.bas.uni-muenchen.de/forschung/Bas/BasSKVIDEO/w406_px.trl
- Recording Protocol - w406_px.rpr: http://www.bas.uni-muenchen.de/forschung/Bas/BasSKVIDEO/w406_px.rpr
- Speaker Protocol - AJK.spr: http://www.bas.uni-muenchen.de/forschung/Bas/BasSKVIDEO/AJK.spr
Einsatzmöglichkeiten
- Untersuchung der Mensch-Maschine-Interaktion
- Auf dem Korpus-Basis von SmartKom wurden 3 Multimodale Dialogsysteme aufgebaut:
- SmartKom-Public: Multimodale Kommunikationszelle, Informationskiosk
- SmartKom-Mobil: Mobiler Kommunikationsassistent
- SmartKom-Home: Intuitives Arbeiten mit dem Computer
DIRNDL-Korpus
Materialquelle
-
DIRNDL =(D)iskurs-(I)nformations-(R)adio-(N)achrichten-(D)atenbank für (L)inguistische Analysen
-
stündlich gesendete Radio-Nachrichten von "Deutschland-Radio
-
mündliche und schriftliche Versionen
Datum
- release: 2012
- release: 26.-31. Mai 2014
Korpusumfang
- ca. 50.000 Wörter
- Audiodateien im Umfang von ca. 5 Stunden (vom 25.- 27.03.2007)
- 9 Sprecher (5 m, 4 w)
- schriftliche Manuskripte, bestehend aus insgesamt 3221 Sätzen
Annotationsebenen
- release (DIRNDL)
-
schriftlich: Syntax mithilfe des XLE Parsers, Informationsstatus (Grad an Gegebenheit: gegebene o. neue Information)(automatisch)
-
mündlich: pitch-Akzente und prosodische Phrasengrenzen mithilfe von GToBI (manuell)
-
außerdem: Verbindung zwischen mündlich und schriftlich (mithilfe von relational
-
database management system PostgreSQL) --> Vergleich zwischen einzelnen Ebenen, z.B. Zusammenhang zwischen Prosodie und Syntax
- release (extended version: DIRNDL anaphora)
- zusätzlich coreference, part-of-speech und morphologische tags, Dependenz, Named-Entities
Formate
-
TIGER-XML mithilfe von TIGERRegistry
-
GrAF XML
-
konvertierbar in verschiedene tool input-Formate. z.B. PAULA XML
-
verfügbar in Tabellenformaten
-
SemEval
-
CoNLL
Lizenz
frei verfügbar unter http://www.ims.uni-stuttgart.de/data/dirndl
Beispiele
#begin document dlf-nachrichten-200703250000 (part 000)
dlf-nachrichten-200703250000 0 1 1 Der der ART case=nom|number=sg|gender=masc * 2 NK (VROOT(S(NP* |NONE| NONE - (R-UNUSED-KNOWN$2 (1
dlf-nachrichten-200703250000 0 1 2 Iran iran NE case=nom|number=sg|gender=masc * 3 SB *) |H*L| NONE (L-NEW$1) R-UNUSED-KNOWN$2) 1)
dlf-nachrichten-200703250000 0 1 3 will wollen VMFIN number=sg|person=3|tense=pres|mood=ind * 0 -- * |NONE| NONE - - -
- -
...
----------------------------------
dlf-nachrichten-200703250000 0 3 1 Der der ART case=nom|number=sg|gender=masc * 2 NK (VROOT(S(NP* |NONE| NONE - (R-UNUSED-KNOWN$7 -
dlf-nachrichten-200703250000 0 3 2 Westen westen NN case=nom|number=sg|gender=masc * 3 SB *) |L*H| - (L-NEW$16) R-UNUSED-KNOWN$7) -
dlf-nachrichten-200703250000 0 3 3 verdächtigt verdächtigen VVFIN number=sg|person=3|tense=pres|mood=ind * 0 -- * |NONE| NONE (L-NEW$15) - -
dlf-nachrichten-200703250000 0 3 4 den der ART case=acc|number=sg|gender=masc * 5 NK (NP* |NONE| NONE - (R-GIVEN$12 (1
dlf-nachrichten-200703250000 0 3 5 Iran iran NE case=acc|number=sg|gender=masc * 3 OA *)) |L*H| - (L-GIVEN-SAME$19$1-2-2) R-GIVEN$12) 1)
dlf-nachrichten-200703250000 0 3 6 , -- $, _ * 3 -- * N/A N/A -
... - -
Einsatzmöglichkeiten
- Evaluation von automatischen Koreferenz- und Bridging-Lösungen
- Bedeutungsunterschiede aufgrund von Prosodie (Informationsstatus)
- Trainingskorpus für automatisches Prosodie-Annotationen
Elizitierte Konfliktgespräche (EK)
Materialquelle
Aufnahmen von Konfliktgesprächen zwischen Müttern und ihren Töchtern
Datum
15.3.1988-30.6.1992
Korpusumfang
- 138 Aufnahmen von 214 Sprecherinnen, Gesamtdauer 12h 23min
- 138 Transkripte (162123 Tokens)
Annotationsebenen
- orthographische Transkription (Partiturschreibweise) mit zusätzlichen Notationen
- Metadaten
- Themenliste
Formate
- Audio: RIFF-WAVE (PCM) 44.100 Hz 16Bit
- Transkripte: PDF (UTF-8)
###Lizenz nach einmaliger Registrierung webbasierter Zugriff auf ausgewählte Teile der Sammlung des Archivs für Gesprochenes Deutsch (AGD) für die Verwendung in Forschung und Lehre http://dgd.ids-mannheim.de:8080/dgd/pragdb.dgd_extern.welcome
Beispiele
http://dgd.ids-mannheim.de:8080/dgd/pragdb.dgd_extern.corpora?v_session_id=EB1B4C7CC2EA5C6ECF2E9BDEBB72691C&v_doctype=e&v_corpus=EK--&v_doc_id=EK--_E_00001
Einsatzmöglichkeiten
- Diskurs-/Gesprächsanalyse
- pädagogischer Kontext
...
...
Alcohol Language Corpus - ALC
Materialquelle
Laboraufnahmen nüchterner und betrunkener Versuchspersonen.
Datum
erste komplette Version: 04.11.2010, letztes Update(version 2.4): 02.12.2014
Korpusumfang
15180 Aufnahmen von 162 Sprechern. Insgesamt 1456556 phonetische Segmente.
Annotationsebenen
Metadaten(Datum, Sprecher, Blutalkoholwert etc.), phonetische Segmentierung, orthografische Transkription, kanonische Aussprache, Fehler/Normabweichungen(Abbrüche, dialektale Merkmale,unverständliche Wörter, Störgeräusche etc.), Kommentare
Formate
BAS Partitur Format,TextGrid, Emu hierarchical database files, Metadaten: SpeechDat, Audio: WAVE RIFF 44100Hz 16bit
Lizenz
COPYRIGHT University of Munich
Beispiele
z.B. die K"ochin mit dem -/#Tufenk/- -/#tu/- -/#topf/- <"ah> -/#Tupfenkoch/- <P> Tupfenkopftuch kocht Karpfen in dem Kupferkochtopf
Einsatzmöglichkeiten
z.B. Automatische Erfassung des Sprecherzustandes; Phonetische oder psycholinguistische Studien
TIGER
Materialquelle
Zeitungstexte der Frankfurter Rundschau
Datum
1999-2004
Korpusumfang
900,000 Tokens, 50,000 Sätze
Annotationsebenen
Wortart, Lemma, Morphosyntax (STTS) Phrasenkategorien: S, NP, VP, … Syntaktische Funktionen: Subjekt, Objekt, Relativsatz, …
Formate
TIGER-XML Format Negra export Format
Lizenz
frei zugänglich Lizenzvereinbarungen: http://www.ims.uni-stuttgart.de/forschung/ressourcen/korpora/TIGERCorpus/license/htmlicense.html
Beispiele
(im TIGER-xml Format)
<terminals>
<t id="s4228_1" word="In" pos="APPR" />
<t id="s4228_2" word="Japan" pos="NE" />
<t id="s4228_3" word="wird" pos="VAFIN" />
<t id="s4228_4" word="offenbar" pos="ADJD" />
<t id="s4228_5" word="die" pos="ART" />
<t id="s4228_6" word="Fusion" pos="NN" />
<t id="s4228_7" word="der" pos="ART" />
<t id="s4228_8" word="Geldkonzerne" pos="NN" />
<t id="s4228_9" word="Daiwa" pos="NE" />
<t id="s4228_10" word="und" pos="KON" />
<t id="s4228_11" word="Sumitomo" pos="NE" />
<t id="s4228_12" word="zur" pos="APPRART" />
<t id="s4228_13" word="größten" pos="ADJA" />
<t id="s4228_14" word="Bank" pos="NN" />
<t id="s4228_15" word="der" pos="ART" />
<t id="s4228_16" word="Welt" pos="NN" />
<t id="s4228_17" word="vorbereitet" pos="VVPP" />
<t id="s4228_18" word="." pos="$." />
</terminals>
<terminals>
<t id="s4231_1" word="In" lemma="in" pos="APPR" morph="--" />
<t id="s4231_2" word="Japan" lemma="Japan" pos="NE" morph="Dat.Sg.Neut" />
<t id="s4231_3" word="wird" lemma="werden" pos="VAFIN" morph="3.Sg.Pres.Ind" />
<t id="s4231_4" word="offenbar" lemma="offenbar" pos="ADJD" morph="Pos" />
<t id="s4231_5" word="die" lemma="der" pos="ART" morph="Nom.Sg.Fem" />
<t id="s4231_6" word="Fusion" lemma="Fusion" pos="NN" morph="Nom.Sg.Fem" />
<t id="s4231_7" word="der" lemma="der" pos="ART" morph="Gen.Pl.Masc" />
<t id="s4231_8" word="Geldkonzerne" lemma="Geldkonzern" pos="NN" morph="Gen.Pl.Masc" />
<t id="s4231_9" word="Daiwa" lemma="Daiwa" pos="NE" morph="Nom.Sg.*" />
<t id="s4231_10" word="und" lemma="und" pos="KON" morph="--" />
<t id="s4231_11" word="Sumitomo" lemma="Sumitomo" pos="NE" morph="Nom.Sg.*" />
<t id="s4231_12" word="zur" lemma="zu" pos="APPRART" morph="Dat.Sg.Fem" />
<t id="s4231_13" word="größten" lemma="groß" pos="ADJA" morph="Sup.Dat.Sg.Fem" />
<t id="s4231_14" word="Bank" lemma="Bank" pos="NN" morph="Dat.Sg.Fem" />
<t id="s4231_15" word="der" lemma="der" pos="ART" morph="Gen.Sg.Fem" />
<t id="s4231_16" word="Welt" lemma="Welt" pos="NN" morph="Gen.Sg.Fem" />
<t id="s4231_17" word="vorbereitet" lemma="vorbereiten" pos="VVPP" morph="Psp" />
<t id="s4231_18" word="." lemma="--" pos="$." morph="--" />
</terminals>
Einsatzmöglichkeiten
Deutscher Wortschatz
Materialquelle
Zeitungstexte, Webseiten, Wikipedia
Datum
* Start des Projekts: 1997
* Hochzeit: 2001
* heute abgeschlossen, wird nur noch gepflegt bzw. Material gesammelt
Korpusumfang
Verfügbar sind 233 Korpus-basierte monolinguale Wörterbücher in 219 Sprachen
Beispiele der Korpusgröße verschiedener Sprachen:
| Deutsch | Englisch | Französisch | Spanisch | Chinesisch | Okzitansisch (nach 1500) |
|---------------------|---------------------|-----------------------|---------------------|-----------------------|--------------------------|
| Material: 2011 | Material: 2002 | Material: 2012 | Material: 2011 | Material: 2007 - 2009 | Material: 2007 |
| Sätze: 26.142.898 | Sätze: 49.628.893 | Sätze: 74.823.426 | Sätze: 16.899.636 | Sätze: 19.308.704 | Sätze: 16.895 |
| Types: 5.876.655 | Types: 4.785.862 | Types: 7.873.935 | Types: 1.913.986 | Types: 1.295.315 | Types: 44.064 |
| Tokens: 425.703.278 | Tokens: 926.766.504 | Tokens: 1.468.766.604 | Tokens: 391.044.224 | Tokens: 575.138.135 | Tokens: 301.449 |
Annotationsebenen
- Wortfrequenzen
- Beispielsätze
- Kookkurenzen (basierend auf left- und right-neighbours in jeweiligem Satz)
- Semantic map-Visualisierung der Kookkurenzen
- Synonyme
- Dornseiff-Sets (Sachgruppen)
Formate
- Online: http://wortschatz.uni-leipzig.de/
- PDML (Presentation model description language)
Lizenz
Copyright Leipzig Corpora Collection
Beispiele
- Ursula: http://corpora.informatik.uni-leipzig.de/res.php?corpusId=deu_newscrawl_2011&word=Ursula
- Haus: http://corpora.informatik.uni-leipzig.de/res.php?corpusId=deu_newscrawl_2011&word=Haus
- Hausarbeit: http://corpora.informatik.uni-leipzig.de/res.php?corpusId=deu_newscrawl_2011&word=Hausarbeit
Einsatzmöglichkeiten
Nachschlagewerk, kontrastive Linguistik, quantitative Linguistik
Falko
Materialquelle
- handschriftlich und digital verfasste Texte von fortgeschrittenen Lernern und Muttersprachlern der deutschen Sprache
- Texte: Zusammenfassungen, argumentative Aufsätze
- Themen: Feminismus, Entlohnung, Studium, Kriminalität
- Muttersprachen L2: über 35, davon die größten Gruppen in Englisch, Französisch, Russisch und Polnisch
- Voraussetzungen der Textproduktion: Keine Hilfsmittel, 90 Minuten Bearbeitungszeit
Datum
- Beginn der Datenerhebungen (seit 2004)
- FALKO Version 1 (18. Oktober 2007)
- FALKO Version 2 (26. September 2012)
Korpusumfang
Gesamtkorpus besteht aus 6 Subkorpora (insgesamt 381.447 Tokens)
- Lernerkorpus
- FalkoSummaryL2 V1.2 (98 Lerner, 107 Texte, 40.923 Tokens)
- FalkoEssayL2 V2.3 (186 Lerner, 248 Texte, 122.778 Tokens)
- FalkoEssayL2WHIG V2.0 (117.189 Tokens)
- Kontrollkorpus Muttersprache
- FalkoSummaryL1 V1.2 (33 Muttersprachler, 36 Texte, 21.184 Tokens)
- FalkoEssayL1 V2.3 (95 Muttersprachler, 95 Texte, 68.491 Tokens)
- Vorlagenkorpus
- FalkoSummaryVL (12 Texte, 11.114 Tokens)
- Metadaten: Muttersprache, Alter, Geschlecht, akademischer Hintergrund (Schule, Semester, Fach, etc.), Sprachbiografie (beherrschte Fremdsprachen, Zeitraum, Auslandsaufenthalte, etc.)
Annotationsebenen
- Wortarten und Lemmata
- Zielhypothesen
- minimale ZH: nah an Lernerstruktur: Orthographie, Morphosyntax
- erweiterte ZH: nah an Lernerintention: Semantik, Pragmatik, Stilistik
- Lernerfehler
- korrigierte Wortarten
- Kommentare des Transkribenten
- Es besteht die Möglichkeit weitere Annotationsebenen zu ergänzen und ebenenunabhängig zu bearbeiten (multi-layer stand-off annotation)
Formate
- Zugang Online auf: http://korpling.german.hu-berlin.de/falko-suche/ (ANNIS3-Korpus-Suchtool)
- Original-Textdokumente
- Excel-Tabellen
- PAULA-XML
Lizenz
- Creative Commons Namensnennung 3.0 Unported Lizenz
- Info: https://creativecommons.org/licenses/by/3.0/deed.de
Beispiele
| tok | Sie | haben | sich | dazu | gewöhnt |
| ZH1 | Sie | haben | sich | daran | gewöhnt |
| ZH1Diff | | | | CHA | |
| ZH1lemma | Sie/sie | haben | er/sie/es | daran | gewöhnen |
| ZH1pos | PPER | VAFIN | PRF | PAV | VVPP |
Einsatzmöglichkeiten
- Fehleranalyse (Abweichungen von der Zielsprache): Welche Fehler sind lernertypisch? Sind Fehler von der Muttersprache der Lerner abhängig?
- Interlinguale kontrastive Untersuchungen: Vergleich von zielsprachlichen Strukturen (Grammatik) in der Zielsprache und der Muttersprache
KiezDeutsch-Korpus (KiDko)
Materialquelle
1.) Korpus
- spoken language corpus
- Informelle, spontansprachliche Gesprächsdaten von Berliner Jugendlichen nicht-deutscher Herkunftssprache (9. Klasse, 14-17 Jahren), Selbstaufnahmen im Freundeskreis
- Sprachen: v.a. Deutsch und Türkisch
2.) thematische Klammer
- Kiezdeutsch/„hood German“ (Rehbein/Schalowski/Wiese 2014) als Multiethnolekt urbaner Lebensräume
- Zentrale Elemente: Code-Mixing und –Switching, Abweichungen vom Standard auf phonetischer, morphosyntaktischer und lexikalischer Ebene
Datum
- ab 2008: Beginn Korpusaufbau (Audioaufnahmen, Transkription, POS-Tagging)
- KiDKo Version 1.0: Frühling 2014
- Aktuelle Projektphase: Syntaktische Aufbereitung (Annotation topologischer Felder)
Korpusumfang
Korpus | Beschreibung |
---|---|
Hauptkorpus | ~ 228.000 Token; rd. 48 h Aufnahmen, |
17 Sprecher/innen, Multiethnisches Wohngebiet (Berlin-Kreuzberg) | |
Kontrollkorpus | ~ 105.000 Token; rd. 18 h Aufnahme |
6 Sprecher/innen (5 männlich, 1 weiblich) | |
Monoethnisches Wohngebiet (Berlin-Hellersdorf) |
Annotationsebenen
Kürzel | Beschreibung |
---|---|
nv | nonverbale Ebene |
v | Transkriptionsebene (GAT2): Prosodische Merkmale (Betonungen u.a.) |
n | Normalisierungsebene (Default-Suche) |
POS | Wortartenebene |
- Erweiterung STTS für gesprochene Sprache (Partikel, Abbrüche) | |
- Entwicklung eines verbesserten Taggers für informelles gesprochenes Deutsch | |
Tr | türkische Transkriptionsebene |
trnorm | türkische Normalisierungsebene |
trdtwwue | deutsche Übersetzung (Wort für Wort) |
trdtue | deutsche Übersetzung (frei) |
Metainformationen:
Sprecherkürzel, Geschlecht, Alter, Wohngebiet, Familiensprache, dominante Sprache
Formate
wav (audio), EXMARaLDA-XML (EXMARaLDA Partitur Editor als Darstellungs- und Transkriptionssystem)
Lizenz
- COPYRIGHT: SFB 632 Informationsstruktur, Universität Potsdam
- Zugang zu den EXMARaLDA-Transkripten über ANNIS (Login-Daten auf Anfrage beim SFB 632: http://www.sfb632.uni-potsdam.de/b6/license.php)
- Zugang zu den Audiodateien aus rechtlichen Gründen nur vor Ort
Beispiele
- Suche nach türkischem Einzellemma: tr=/lan/
- Suche nach POS-Tag-Abfolge: POS=/ADV/ & POS=/ADJD/ & POS=/ADJD/ & #1 . #2 & #2 . #3
- Suche nach speziellem (Berliner) Kiezdeutsch-Phänomen (Koronalisierung): n=“isch“
Quelle: Rehbein/Schalowski/Wiese (2014)
Einsatzmöglichkeiten
- Nur bei Volltextrecherche: Gesprächsforschung
- Nur bei Zugang zu kompletten Audiofiles: Intonationsforschung
- Trainingskorpus für POS-Tagger gesprochener Sprache
- Soziolinguistik/Jugendsprache (auch kontrastiv)
- Sprachkontaktforschung
- Varietätenlinguistik/Ethnolektforschung
- Gegenwärtiger Sprachwandel
Quellen
Korpus
- Wiese, H.; Rehbein, I.; Schalowski, S.; Freywald, U. & Mayr, K. (2010ff): KiDKo - Ein Korpus spontaner Unterhaltungen unter Jugendlichen im multiethnischen und monoethnischen urbanen Raum
Literatur
- Rehbein, I.; Schalowski, S. & Wiese, H. (2014): The KiezDeutsch Korpus (KiDKo) Release 1.0. In: Proceedings of the 9th International Conference on Language Resources and Evaluation (LREC), May 24-31, 2014. Reykjavik, Iceland. [verfügbar unter: http://www.sfb632.uni-potsdam.de/~rehbein/papers/lrec_camera-ready.pdf, Stand 1.7.2015]
- Rehbein, I. & Schalowski, S. (2014): STTS goes Kiez ‐ Experiments on Annotating and Tagging Urban Youth Language. Journal for Language Technology and Computational Linguistics 28: 199-227. [verfügbar unter: http://www.jlcl.org/2013_Heft1/8Rehbein.pdf, Stand 1.7.2015]
- Rehbein, I. (2014): Wortartenannotation im Kiezdeutschkorpus (KiDKo 1.0) – Draft [verfügbar unter: http://www.kiezdeutschkorpus.de/files/kidko/downloads/POS-KiDKo.pdf, Stand 1.7.2015]
Deutsche Mundarten: ehemalige deutsche Ostgebiete (OS)
Materialquelle
- Geplante Tonbandaufnahmen ostdeutscher Mundarten (Arten: Erzählung, Vortrag, Vorlesen, Standardtext) in den jeweiligen Wohnungen der Sprecher
- Realisierung: Face-to-face
- 987 ältere Sprecher ost- und südostdeutscher Dialekte (Übersiedler), die den Sprachstand vor 1945 repräsentieren
Datum
Tonbandaufnahmen von 1962-1965
Korpusumfang
981 Aufnahmen (Gesamtdauer: 460 Stunden, 52 Minuten), einzelne Aufnahmen: 5 Minuten, 19 Sekunden bis 1 Stunde, 16 Minuten
280 Transkriptionen (mit dem Ton synchronisiert)
Zusatzmaterial:
- Transkriptionskonventionen
- Themenliste
- Liste der sprachlichen Besonderheiten
- Wortlisten
- Lemmalisten
- Listen der Berufe der Sprecher
Annotationsebenen
- Transkription: an alter Ortografie orientierte hochsprachliche Übertragung
- Erläuterungen der Transkribenten
- Lemmatisierung
- POS-Tagging
Formate
Audio: RIFF-WAVE RIFF (PCM) 44.100 Hz 16 Bit
Transkripte: XML (UTF-8)
Zusatzmaterial: PDF (Ansi), TXT (UTF-8)
Lizenz
nach Anmeldung frei zugänglich unter http://dgd.ids-mannheim.de
Beispiele
http://dgd.ids-mannheim.de:8080/dgd/pragdb.dgd_extern.corpora?v_session_id=91179580965177C175A8A4097C4104A9&v_doctype=t&v_corpus=OS--&v_doc_id=OS--_E_00001_SE_01_T_01
http://dgd.ids-mannheim.de:8080/dgd/pragdb.dgd_extern.corpora?v_session_id=91179580965177C175A8A4097C4104A9&v_doctype=z&v_corpus=OS--&v_doc_id=OS--_Z_07_Lemmaliste_Frequenz.txt
Einsatzmöglichkeiten
- Dialektforschung
- lexikalische Untersuchungen
- linguistische Forschung
Copyright
...