zh-NER-keras
zh-NER-keras copied to clipboard
一些小问题
BLSTM可以自动标注,但我看你测试数据集和训练数据集都是标注好的,最后用一段话来测试。不应该是用测试集来测试吗?我有点没有看懂
測試完測試集總會想要自己任意輸入句子試試看,我想作者是測完自己輸入的句子就直接上傳了吧。
@luvensaitory 所以自己输入句子只是为了方便看吗?我看了哈,这个是不是训练集是自己标注的语料,然后测试集来使用模型来标注。这样的话也没有解决人工标注少而且麻烦的问题啊?
@Sallylearning 是的,訓練集和測試集是自行標註的語料,訓練完再經由測試集來評比模型的成果。
@luvensaitory 我看网上说神经网络可以解决人工标注少,需要专业知识等问题。但实际上我们还是需要自己标注语料么?感觉如果是这样直接用CRF就可以了啊
@Sallylearning 那我這麼說吧,神經網路可以依據妳相對少量的訓練集做訓練,接著標註世界上更多更多需要標註的資料。那為什麼要CRF結合LSTM呢?因為它結果更好。
@luvensaitory 哦哦哦!!!懂起了!!!谢谢你的耐心解答~~~
@Sallylearning 不會不會,教學相長!
训练集我也上传了的,我有使用训练集,最后一句话不是测试只是用来展示直观的效果。
@stephen-v 我看到了~有个 test_data 和 train_data ~~ 我想再问个问题 ~ 就是测试集我们自己有标注,然后最后我们运行val.py训练模型,模型会标注未标注的测试集,然后我们来对比和我们自己标注的测试集,有哪些被识别出来了,然后计算正确率?是这样的吗?
一边训练一边就会进行测试
@stephen-v 最开始我要用来测试的测试集不用标注吧,那你这个怎么能查看自己的正确率呢?
@Sallylearning 就是要有標註才能測試出正確率阿。
@luvensaitory 标注是我自己标注的嘛,我的意思是,我们模型用的测试集是没有事先标注好的,然后由模型来标注,然后来与我们自己标注好的进行对比
@Sallylearning 妳先去網路上找些神經網路的基礎知識看看吧,找完再照著別人的代碼實作,妳就會覺得自己現在問的問題很可愛了。建議一開始就從CNN數字辨識開始吧。
@luvensaitory 我有看过一些论文,但是理解的都不是很深刻,我想说我动手实践一下,可能理解的更透彻一点。我主要是怕我自己理解错了,然后在错误的路上一去不复返