IOB2Corpus
IOB2Corpus copied to clipboard
Japanese IOB2 tagged corpus for Named Entity Recognition.
概要
hironsan.txtは、ウィキニュース日本語版をMeCabで形態素解析してIOB2タグでタグ付けしたコーパスです。
全部で500文にタグ付けしています。
タグ付けの基準はIREXの定義に基づいています。(だいたい)
- http://nlp.cs.nyu.edu/irex/NE/df990214.txt
ウィキニュース日本語版のライセンスはクリエイティブ・コモンズ-表示-2.5です。
ja.wikipedia.conllは、Wikipedia日本語版から抽出したテキストをMeCabで形態素解析してタグ付けしたコーパスです。