Sallylearning

Results 14 comments of Sallylearning

@luvensaitory 所以自己输入句子只是为了方便看吗?我看了哈,这个是不是训练集是自己标注的语料,然后测试集来使用模型来标注。这样的话也没有解决人工标注少而且麻烦的问题啊?

@luvensaitory 我看网上说神经网络可以解决人工标注少,需要专业知识等问题。但实际上我们还是需要自己标注语料么?感觉如果是这样直接用CRF就可以了啊

@luvensaitory 哦哦哦!!!懂起了!!!谢谢你的耐心解答~~~

@stephen-v 我看到了~有个 test_data 和 train_data ~~ 我想再问个问题 ~ 就是测试集我们自己有标注,然后最后我们运行val.py训练模型,模型会标注**未标注的测试集**,然后我们来对比和我们自己标注的测试集,有哪些被识别出来了,然后计算正确率?是这样的吗?

@stephen-v 最开始我要用来测试的测试集不用标注吧,那你这个怎么能查看自己的正确率呢?

@luvensaitory 标注是我自己标注的嘛,我的意思是,我们模型用的测试集是没有事先标注好的,然后由模型来标注,然后来与我们自己标注好的进行对比

@luvensaitory 我有看过一些论文,但是理解的都不是很深刻,我想说我动手实践一下,可能理解的更透彻一点。我主要是怕我自己理解错了,然后在错误的路上一去不复返

@luvensaitory BLSTM不是可以自动标注吗?这么做感觉就是自己标注好语料库,然后让机器去学习,训练模型。我看论文,感觉是有BLSTM来训练语料,CRF约束标注语料,然后识别实体

@luvensaitory 我没有质问你的意思,我是正好有点不懂,所以向您询问一下…… 主要是我之前的理解是训练集是没有标注的,因为我觉得既然训练集都是标注好的,那么所谓的神经网络可以解决人工标注少的问题那不就没有解决?因为你自己还不是要自己标注才能去训练…… 我看process_data.py,又感觉是在这里面标注,我就有点困惑了,所以训练集到底需不需要标注?但是不标注他怎么知道我某个字可以被标注为某个tag

@luvensaitory 我理解了,那这个所谓的减少人工标注,是这个能对新词自动标注并识别?并不是所谓的全部机器标注。 所以我们还是要先标注一部分语料,然后一部分训练模型,一部分来验证我们的模型,看准确率什么的。这个就比单纯的CRF模型多了可以**根据上下文**来判断该词是否该被标注为某个tag?这么一想,感觉这个模型都不怎么厉害了……