kcws
kcws copied to clipboard
Deep Learning Chinese Word Segment
您好,我有一些文本 ,但是没有做分词及词性标注,那这个需要人工去处理吗?因为行业内的一些词其他的分词器并不一定都能分正确,希望得到您的回复多谢
训练模型准确率91%,实际测试效果和与作者提供的demo有点差距,请问大神如何能达到和demo一样的效果
大神,您好,我想问一下这个文件是什么?我没有这个文件,该如何创建
模型导出时指定 output node 在解码的时候作为模型的输出; 训练的时候不是应该指定这两个名字吗? 我在bilstm.py 文件找到了 Reshape_7 这个output的定义 但没找到pos训练 Reshape_9 这个output的定义 以及transitions的定义, 这两个是tensorflow 默认的output node还是什么? 麻烦解释下,谢谢
大神,好,训练模型后如何使用模型呢?意思是如何输入一个句子进行测试呢?
train_cws.py 训练 输入特征:字的 word2vec向量表示 train_pos.py 训练 输入特征是:词的 word2vec向量表示,文档写的最大50个词,向量的1-50是词的word2vec表示,不够的用0填充;字的word2vec向量表示,每个词最大5个词,超过5个字的用最后一个字代替第五个字,就是一个50X5的向量;词性标注结果个词的向量长度一致50,所以训练语料是长度为350的向量,1-50是词,51-300是字,301-350是预测结果。 想写一个train NE 的代码模仿train_pos.py: 1-50词,51-300字,301-350词性,NE表示和字序列类似每个最大长度15,就是15X50,351-1100是预测结果,但是改代码失败了 能不能一个train.py, 准备好训练语料之后,自定义特征以及对应的特征长度,还有定义输出 对Python不熟悉,想用这个训练model之后C++直接调用,求大神指教。
ERROR: /root/.cache/bazel/_bazel_root/c57281e52862ca1f4c15bbb22593b787/external/protobuf/BUILD:434:1: Traceback (most recent call last): File "/root/.cache/bazel/_bazel_root/c57281e52862ca1f4c15bbb22593b787/external/protobuf/BUILD", line 434 cc_proto_library(name = "cc_test_protos", srcs = (L...), ) File "/root/.cache/bazel/_bazel_root/c57281e52862ca1f4c15bbb22593b787/external/protobuf/protobuf.bzl", line 247, in cc_proto_library cc_libs += [default_runtime] trying to mutate...
您好,仔细看了下代码,分词和词性标注训练代码的还是不同的,分词输入的是字向量,词性标注输入的是词和字向量,请问demo实体识别用的是分词的方法还是词性标注的方法,有没有用到词性信息,不知道方便不方便说一下。
大哥, 我参考readme上的操作步骤,可以成功训练,但是 kcws/models下word_vocab.txt这个文件是如何生成的,以及他的作用,有脚本提供吗?
K大神,我在2014年的语料里添加了1998年人民日报的,分词模型训练的精度只有37%,只是什么原因?