ChineseNER icon indicating copy to clipboard operation
ChineseNER copied to clipboard

关于data_format.py文件作用

Open ufo5 opened this issue 6 years ago • 3 comments

非常感谢共享,有个问题请教下,data_format.py文件在这里有什么用?再就是测试精度的时候怎么把B-LOC和I-LOC每一个实体合并起来成一个 精度?

ufo5 avatar May 21 '18 03:05 ufo5

data_format是在训练/测试之前对数据读入和规范化处理用的,具体来说是把句子分词、词性标注(用jieba),做成crf可以读入的格式。有一些涉及训练数据的函数,是为了把那种用花括号标记实体的语料转化为每一行一个字和一个位置标记的格式。 合并的话暂时还没做这个功能。。

hontsev avatar Jun 06 '18 01:06 hontsev

非常感谢回复,这个已经非常好。

ufo5 avatar Jun 13 '18 02:06 ufo5

λ python main.py ner C:\Users\Administrator\AppData\Local\Programs\Python\Python37\lib\site-packages\sklearn\utils_init_.py:4: DeprecationWarning: Using or importing the ABCs from 'collections' instead of from 'collections.abc' is deprecated, and in 3.8 it will stop working from collections import Sequence 格式不对

UPWHY avatar Sep 18 '18 07:09 UPWHY