sequence-labeling-by-nn icon indicating copy to clipboard operation
sequence-labeling-by-nn copied to clipboard

中文分词实验

Open fseasy opened this issue 8 years ago • 0 comments

模型包括 { unigram , bigram } x { single-input , double-input } x { classification , pre-tag , crf} 的任意组合(笛卡尔乘积),共12种。

其中{unigram , bigram}表示输入的词是使用单个字,还是连续的两个字;{single-input , double-input}分别表示仅使用随机初始化的Word Embedding 和 使用随机初始化的Embedding+在大规模训练语料上训练得到的Embedding;{classification , pre-tag , crf}分别表示在输出tag层使用分类、加入前一个tag信息,使用CRF来解码。

以下列出在数据集PKU-WEIBO-TEST上的结果,详细结果见中文分词-实验结果

模型 F1
LTP CWS 96.56%
unigram-single-classification 93.60%
unigram-single-pretag 93.37%
unigram-single-crf 92.70%
unigram-double-classification 90.45%
unigram-double-pretag 90.33%
unigram-double-crf 89.16%
bigram-single-classification 96.41%
bigram-single-pretag 96.36%
bigram-single-crf 96.14%
bigram-double-classification 96.57%
bgram-double-pretag 96.54%
bigram-double-crf 95.80%

fseasy avatar Jun 03 '16 02:06 fseasy