seq2annotation icon indicating copy to clipboard operation
seq2annotation copied to clipboard

基于 TensorFlow & PaddlePaddle 的通用序列标注算法库(目前包含 BiLSTM+CRF, Stacked-BiLSTM+CRF 和 IDCNN+CRF,更多算法正在持续添加中)实现中文分词(Tokenizer / segmentation)、词性标注(Part Of Speech, P...

seq2annotation

基于 TensorFlow & PaddlePaddle 的通用序列标注算法库(目前包含 BiLSTM+CRFIDCNN+CRF,更多算法正在持续添加中)实现中文分词(Tokenizer / segmentation)、词性标注(Part Of Speech, POS)和命名实体识别(Named Entity Recognition, NER)等序列标注任务。

特色

  • 通用的序列标注:能够解决通用的序列标注问题:分词、词性标注和实体识别仅仅是特例。
  • Tag schema free: 你可以选择你想用的任何 Tagset。依赖于 tokenizer_tools 提供的编码、解码功能

TODO

  • current TF Metrics is not launch on pypi, but seq2annotation depends on it, so seq2annotation currently can't packaged as python package on pypi

More Algorithms To Do

  • https://www.cnblogs.com/Determined22/p/7238342.html
  • http://www.davidsbatista.net/blog/2018/05/09/Named_Entity_Evaluation/
  • http://www.voidcn.com/article/p-kvrmknrl-bgh.html

Credits

增加 NER 评估方案

From http://www.davidsbatista.net/blog/2018/05/09/Named_Entity_Evaluation/