Sallylearning comments

Results 14 comments of


                                            Sallylearning

一些小问题

@luvensaitory 所以自己输入句子只是为了方便看吗？我看了哈，这个是不是训练集是自己标注的语料，然后测试集来使用模型来标注。这样的话也没有解决人工标注少而且麻烦的问题啊？

一些小问题

@luvensaitory 我看网上说神经网络可以解决人工标注少，需要专业知识等问题。但实际上我们还是需要自己标注语料么？感觉如果是这样直接用CRF就可以了啊

一些小问题

@stephen-v 我看到了~有个 test_data 和 train_data ~~ 我想再问个问题 ~ 就是测试集我们自己有标注，然后最后我们运行val.py训练模型，模型会标注**未标注的测试集**，然后我们来对比和我们自己标注的测试集，有哪些被识别出来了，然后计算正确率？是这样的吗？

一些小问题

@stephen-v 最开始我要用来测试的测试集不用标注吧，那你这个怎么能查看自己的正确率呢？

一些小问题

@luvensaitory 标注是我自己标注的嘛，我的意思是，我们模型用的测试集是没有事先标注好的，然后由模型来标注，然后来与我们自己标注好的进行对比

一些小问题

@luvensaitory 我有看过一些论文，但是理解的都不是很深刻，我想说我动手实践一下，可能理解的更透彻一点。我主要是怕我自己理解错了，然后在错误的路上一去不复返

测试集数据

@luvensaitory BLSTM不是可以自动标注吗？这么做感觉就是自己标注好语料库，然后让机器去学习，训练模型。我看论文，感觉是有BLSTM来训练语料，CRF约束标注语料，然后识别实体

@luvensaitory 我没有质问你的意思，我是正好有点不懂，所以向您询问一下…… 主要是我之前的理解是训练集是没有标注的，因为我觉得既然训练集都是标注好的，那么所谓的神经网络可以解决人工标注少的问题那不就没有解决？因为你自己还不是要自己标注才能去训练…… 我看process_data.py，又感觉是在这里面标注，我就有点困惑了，所以训练集到底需不需要标注？但是不标注他怎么知道我某个字可以被标注为某个tag

测试集数据

@luvensaitory 我理解了，那这个所谓的减少人工标注，是这个能对新词自动标注并识别？并不是所谓的全部机器标注。所以我们还是要先标注一部分语料，然后一部分训练模型，一部分来验证我们的模型，看准确率什么的。这个就比单纯的CRF模型多了可以**根据上下文**来判断该词是否该被标注为某个tag？这么一想，感觉这个模型都不怎么厉害了……