CrimeKgAssitant
CrimeKgAssitant copied to clipboard
Crime assistant including crime type prediction and crime consult service based on nlp methods and crime kg,罪名法务智能项目,内容包括856项罪名知识图谱, 基于280万罪名训练库的罪名预测,基于20W法务问答对...
for better performance, GPU for tensorflow is needed.
http://cail.cipsc.org.cn:2018/instruction https://cail.oss-cn-qingdao.aliyuncs.com/CAIL2018_ALL_DATA.zip
[data/qa_corpus.json](https://github.com/liuhuanyong/CrimeKgAssitant/blob/master/data/qa_corpus.json.zip)的answer field包含了多个答案,请问怎么获得标准答案?
hi,dear 大佬能提供下这个文件么? 感谢
执行法务咨询自动问答脚本,运行 python crime_qa.py后,正常输入问题程序崩溃出错,出错完整内容如下``` loaded 300785 word embedding, finished question:我要离婚 GET http://127.0.0.1:9200/crime_data/crime/_search?size=20 [status:N/A request:0.000s] Traceback (most recent call last): File "/home/cc/anaconda3/lib/python3.6/site-packages/urllib3/connection.py", line 159, in _new_conn (self._dns_host, self.port), self.timeout, **extra_kw) File "/home/cc/anaconda3/lib/python3.6/site-packages/urllib3/util/connection.py",...
cur = '/'.join(os.path.abspath(__file__).split('/')[:-1]) self.train_file = os.path.join(cur, 'question_train.txt') 就是这个文件找不到
背景: 刚接触这个领域,请教老师问题 过程: 对2G多的那个train.json中的fact提取,分词,再用word2vec训练出词向量,结果:1280257个词,4.66G。 我看您训练后的只有1G多,觉得可能和没有去除停用词有关,可能和分词后没有去重有关,去掉停用词后,1440045个词,5.24G,数量不减反增,没想明白为什么。 问: 1)一般情况下对语料分词后要不要去除停用词,如果去掉的话,在用词向量表示文档的时候,会不会丢失语义,比如:导致,由于,传说等词,且数字需不需要去掉,因为日期,电话号码等在某些领域很多,是有意义的。 2)在分词的时候,每读取一行语料,分词,写入词文件,这样势必会产生很多相同的词语,这个时候要不要去重,不知道您是怎么做的。 感谢。
在问题分类的功能里,训练模型的时候要一个question_train.txt',可以共享一下么。谢谢