sequence-labeling-by-nn 中文分词实验

中文分词实验

Open fseasy opened this issue 8 years ago • 0 comments

模型包括 { unigram , bigram } x { single-input , double-input } x { classification , pre-tag , crf} 的任意组合（笛卡尔乘积），共12种。

其中{unigram , bigram}表示输入的词是使用单个字，还是连续的两个字；{single-input , double-input}分别表示仅使用随机初始化的Word Embedding 和使用随机初始化的Embedding+在大规模训练语料上训练得到的Embedding；{classification , pre-tag , crf}分别表示在输出tag层使用分类、加入前一个tag信息，使用CRF来解码。

以下列出在数据集PKU-WEIBO-TEST上的结果，详细结果见中文分词-实验结果

模型	F1
LTP CWS	96.56%
unigram-single-classification	93.60%
unigram-single-pretag	93.37%
unigram-single-crf	92.70%
unigram-double-classification	90.45%
unigram-double-pretag	90.33%
unigram-double-crf	89.16%
bigram-single-classification	96.41%
bigram-single-pretag	96.36%
bigram-single-crf	96.14%
bigram-double-classification	96.57%
bgram-double-pretag	96.54%
bigram-double-crf	95.80%

Jun 03 '16 02:06 fseasy

sequence-labeling-by-nn sequence-labeling-by-nn copied to clipboard

中文分词实验

sequence-labeling-by-nn
sequence-labeling-by-nn copied to clipboard