text_scalpel
text_scalpel copied to clipboard
请问下离线情况,直接执行predict_main.py时缺label_map.txt怎么处理?
好像phrase_vocabulary_optimization.py那一步可以得到label_map.txt,但是又需要活的训练数据train.txt;又是通过/get_text_pair_lcqmc.py 生成的,但是没有这个路径下数据呢/corpus/Chinese_QA/LCQMC ?
离线的意思 是还要自己训练吗?
是的,我没有提供模型。要自己训练后才能运行predict_main.py进行离线的推理任务。请先自己准备语料,然后参考rephrase.sh按照顺序执行各个步骤。
文本复述的语料需要自己整理语义一致的文本对。如果用自己业务场景下的语料最好,当然数量不能太少,如果没有或不够就加上LCQMC等语料中的正例。 然后用最长公共子串的长度限制一下,因为这个方法要求source和target的字面表达不能差异过大,可以参考一下“get_text_pair_lcqmc.py”。 目前,我的train.txt,tune.txt中都是三列即text1,text2,lcs_score,之间用tab"\t"分割。
离线是指的不启动服务实时响应,需要预测的时候就运行代码得到结果,所以需要训练模型。现阶段的NLP模型一般是需要聚焦到具体场景的,故我在自己场景下训练的模型不适合别人用,故没有提供。