sequence-labeling-by-nn icon indicating copy to clipboard operation
sequence-labeling-by-nn copied to clipboard

词性标注实验提高性能的方案

Open Oneplus opened this issue 9 years ago • 6 comments

  • [x] 1. 增加迭代轮次 [无效]
  • [ ] 2. 设计一些特征,具体可以参考c&w 2011
  • [ ] 3. seqlabeling中加入tag信息,现在的模型没有考虑tag转移,如果能把前一个tag也作为输入输进去,对于预测当前tag应该比较有用
  • [ ] 4. 用crf
  • [ ] 5. 将数字时间进行normalize

Oneplus avatar Mar 30 '16 01:03 Oneplus

好的,接下来会依次尝试。

fseasy avatar Mar 30 '16 02:03 fseasy

另外,postagger.cc line 418 加了一个noise,这个不知道会不会有问题。

感觉有两个setting可以试试:

  • 加/不加noise
  • lstm加/不加 dropout

Oneplus avatar Mar 30 '16 09:03 Oneplus

可以优先试试3

Oneplus avatar Mar 31 '16 08:03 Oneplus

嗯嗯。刚刚查看了下错误预测的结果,发现与预期不符。 因为字典中包含的很多数词在外部Embedding中没有出现,所以猜测在devel时应该有较多类似的数字词汇预测错误。然而查看一些结果后,发现很多错误都是由 多词性的词语预测错误 而带来的。也许加入前一个Tag会有所帮助,最终可能还需要+CRF层或维特比解码之类的。到时还需要师兄指导下。 先尝试把前一个预测的Tag加上。需要想想该怎么做...

fseasy avatar Mar 31 '16 08:03 fseasy

可以直接当input输入lstm里。现在是只有word的表达式输入进去。可以把[prev_tag, word]的embedding concate起来。

On Thu, Mar 31, 2016 at 4:31 PM 徐伟 [email protected] wrote:

嗯嗯。刚刚查看了下错误预测的结果,发现与预期不符。 因为字典中包含的很多数词在外部Embedding中没有出现,所以猜测在devel时应该有较多类似的数字词汇预测错误。然而查看一些结果后,发现很多错误都是由 有多词性的词语预测错误 而带来的。也许加入前一个Tag会有所帮助,最终可能还需要+CRF层或维特比解码之类的。到时还需要师兄指导下。 先尝试把前一个预测的Tag加上。需要想想该怎么做...

— You are receiving this because you authored the thread. Reply to this email directly or view it on GitHub https://github.com/memeda/sequence-labeling-by-nn/issues/6#issuecomment-203819224

Oneplus avatar Mar 31 '16 08:03 Oneplus

针对现在速度比较慢的问题,想到以下一些

  1. 试试用gru换lstm
  2. 试试mlp

Oneplus avatar Apr 15 '16 15:04 Oneplus