sequence-labeling-by-nn
sequence-labeling-by-nn copied to clipboard
词性标注实验提高性能的方案
- [x] 1. 增加迭代轮次 [无效]
- [ ] 2. 设计一些特征,具体可以参考c&w 2011
- [ ] 3. seqlabeling中加入tag信息,现在的模型没有考虑tag转移,如果能把前一个tag也作为输入输进去,对于预测当前tag应该比较有用
- [ ] 4. 用crf
- [ ] 5. 将数字时间进行normalize
好的,接下来会依次尝试。
另外,postagger.cc line 418 加了一个noise,这个不知道会不会有问题。
感觉有两个setting可以试试:
- 加/不加noise
- lstm加/不加 dropout
可以优先试试3
嗯嗯。刚刚查看了下错误预测的结果,发现与预期不符。
因为字典中包含的很多数词在外部Embedding中没有出现,所以猜测在devel时应该有较多类似的数字词汇预测错误。然而查看一些结果后,发现很多错误都是由 有多词性的词语预测错误 而带来的。也许加入前一个Tag会有所帮助,最终可能还需要+CRF层或维特比解码之类的。到时还需要师兄指导下。
先尝试把前一个预测的Tag加上。需要想想该怎么做...
可以直接当input输入lstm里。现在是只有word的表达式输入进去。可以把[prev_tag, word]的embedding concate起来。
On Thu, Mar 31, 2016 at 4:31 PM 徐伟 [email protected] wrote:
嗯嗯。刚刚查看了下错误预测的结果,发现与预期不符。 因为字典中包含的很多数词在外部Embedding中没有出现,所以猜测在devel时应该有较多类似的数字词汇预测错误。然而查看一些结果后,发现很多错误都是由 有多词性的词语预测错误 而带来的。也许加入前一个Tag会有所帮助,最终可能还需要+CRF层或维特比解码之类的。到时还需要师兄指导下。 先尝试把前一个预测的Tag加上。需要想想该怎么做...
— You are receiving this because you authored the thread. Reply to this email directly or view it on GitHub https://github.com/memeda/sequence-labeling-by-nn/issues/6#issuecomment-203819224
针对现在速度比较慢的问题,想到以下一些
- 试试用gru换lstm
- 试试mlp