sequence-labeling-by-nn 词性标注实验提高性能的方案

[x] 1. 增加迭代轮次 [无效]
[ ] 2. 设计一些特征，具体可以参考c&w 2011
[ ] 3. seqlabeling中加入tag信息，现在的模型没有考虑tag转移，如果能把前一个tag也作为输入输进去，对于预测当前tag应该比较有用
[ ] 4. 用crf
[ ] 5. 将数字时间进行normalize

Mar 30 '16 01:03 Oneplus

好的，接下来会依次尝试。

Mar 30 '16 02:03 fseasy

另外，postagger.cc line 418 加了一个noise，这个不知道会不会有问题。

感觉有两个setting可以试试：

加/不加noise
lstm加/不加 dropout

Mar 30 '16 09:03 Oneplus

可以优先试试3

Mar 31 '16 08:03 Oneplus

嗯嗯。刚刚查看了下错误预测的结果，发现与预期不符。因为字典中包含的很多数词在外部Embedding中没有出现，所以猜测在devel时应该有较多类似的数字词汇预测错误。然而查看一些结果后，发现很多错误都是由 有多词性的词语预测错误 而带来的。也许加入前一个Tag会有所帮助，最终可能还需要+CRF层或维特比解码之类的。到时还需要师兄指导下。先尝试把前一个预测的Tag加上。需要想想该怎么做...

Mar 31 '16 08:03 fseasy

可以直接当input输入lstm里。现在是只有word的表达式输入进去。可以把[prev_tag, word]的embedding concate起来。

On Thu, Mar 31, 2016 at 4:31 PM 徐伟 [email protected] wrote:

嗯嗯。刚刚查看了下错误预测的结果，发现与预期不符。因为字典中包含的很多数词在外部Embedding中没有出现，所以猜测在devel时应该有较多类似的数字词汇预测错误。然而查看一些结果后，发现很多错误都是由 有多词性的词语预测错误 而带来的。也许加入前一个Tag会有所帮助，最终可能还需要+CRF层或维特比解码之类的。到时还需要师兄指导下。先尝试把前一个预测的Tag加上。需要想想该怎么做...

— You are receiving this because you authored the thread. Reply to this email directly or view it on GitHub https://github.com/memeda/sequence-labeling-by-nn/issues/6#issuecomment-203819224

Mar 31 '16 08:03 Oneplus

针对现在速度比较慢的问题，想到以下一些

试试用gru换lstm
试试mlp

Apr 15 '16 15:04 Oneplus

sequence-labeling-by-nn sequence-labeling-by-nn copied to clipboard

词性标注实验提高性能的方案

sequence-labeling-by-nn
sequence-labeling-by-nn copied to clipboard