text_scalpel 请问下离线情况，直接执行predict_main.py时缺label

请问下离线情况，直接执行predict_main.py时缺label_map.txt怎么处理？

Open heathmistry opened this issue 4 years ago • 4 comments

好像phrase_vocabulary_optimization.py那一步可以得到label_map.txt，但是又需要活的训练数据train.txt；又是通过/get_text_pair_lcqmc.py 生成的，但是没有这个路径下数据呢/corpus/Chinese_QA/LCQMC ？

May 03 '20 12:05 heathmistry

离线的意思是还要自己训练吗？

May 03 '20 14:05 heathmistry

是的，我没有提供模型。要自己训练后才能运行predict_main.py进行离线的推理任务。请先自己准备语料，然后参考rephrase.sh按照顺序执行各个步骤。

May 06 '20 00:05 Mleader2

文本复述的语料需要自己整理语义一致的文本对。如果用自己业务场景下的语料最好，当然数量不能太少，如果没有或不够就加上LCQMC等语料中的正例。然后用最长公共子串的长度限制一下，因为这个方法要求source和target的字面表达不能差异过大，可以参考一下“get_text_pair_lcqmc.py”。目前，我的train.txt,tune.txt中都是三列即text1,text2,lcs_score,之间用tab"\t"分割。

May 06 '20 00:05 Mleader2

离线是指的不启动服务实时响应，需要预测的时候就运行代码得到结果，所以需要训练模型。现阶段的ＮＬＰ模型一般是需要聚焦到具体场景的，故我在自己场景下训练的模型不适合别人用，故没有提供。

May 06 '20 10:05 Mleader2

text_scalpel text_scalpel copied to clipboard

请问下离线情况，直接执行predict_main.py时缺label_map.txt怎么处理？

text_scalpel
text_scalpel copied to clipboard