sequence-labeling-by-nn
sequence-labeling-by-nn copied to clipboard
中文分词实验
模型包括 { unigram , bigram } x { single-input , double-input } x { classification , pre-tag , crf} 的任意组合(笛卡尔乘积),共12种。
其中{unigram , bigram}
表示输入的词是使用单个字,还是连续的两个字;{single-input , double-input}
分别表示仅使用随机初始化的Word Embedding 和 使用随机初始化的Embedding+在大规模训练语料上训练得到的Embedding;{classification , pre-tag , crf}
分别表示在输出tag层使用分类、加入前一个tag信息,使用CRF来解码。
以下列出在数据集PKU-WEIBO-TEST上的结果,详细结果见中文分词-实验结果
模型 | F1 |
---|---|
LTP CWS | 96.56% |
unigram-single-classification | 93.60% |
unigram-single-pretag | 93.37% |
unigram-single-crf | 92.70% |
unigram-double-classification | 90.45% |
unigram-double-pretag | 90.33% |
unigram-double-crf | 89.16% |
bigram-single-classification | 96.41% |
bigram-single-pretag | 96.36% |
bigram-single-crf | 96.14% |
bigram-double-classification | 96.57% |
bgram-double-pretag | 96.54% |
bigram-double-crf | 95.80% |