ERNIE
ERNIE copied to clipboard
The official repository for ERNIE 4.5 and ERNIEKit – its industrial-grade development toolkit based on PaddlePaddle.
1.使用哪个数据集训练合适,想使用lcqmc数据集,但lcqmc数据集的train.tsv第3列是lable 0,1,text_matching代码要求第3列neg_title列,这样训练是不是有问题?需要修改ERNIE\applications\tasks\text_matching代码吗?需要把lcqmc数据集test.tsv第3列的lable0,1转化为随机的neg_title列吗,需要修改哪些文件? 2.若lcqmc数据集不适合,使用哪个模型+数据集适合得出文本的相似度得分,求推荐?
**Is your feature request related to a problem? Please describe.** A clear and concise description of what the problem is. Ex. I'm always frustrated when [...] **Describe the solution you'd...
1.用啥数据集训练合适,求推荐?有通用的模型可以直接下载用吗? 2.若用lcqmc数据集训练,第3列是lable0,1列,和ERNIE\applications\tasks\text_matching要求的neg_title文本不一致,怎么修改text_matching示例调用的模块?
1。比较文本文本相似度得分,使用哪个模型+数据集合适,有现成的模型+数据集可以用吗,求推荐 2。长文本相似度比较,有示例吗?是不是把长文本拆分
看论文的时候想到的,如果不需要的话,是为什么呢?任务层的效果变化幅度怎么样?下游任务可能会变得更差吗? 如果需要的话,重新一轮会需要多久呢?
读取时增加'r',去掉重复的open行,保存时增加UTF-8的编码
应该是执行:model = ErnieModel.from_pretrained('ernie-1.0')时报如下错,windows中的pycharm里跑的,版本2.3.0 [INFO] 2022-05-20 14:36:48,313 [modeling_ernie.py: 267]: get pretrain dir from https://ernie-github.cdn.bcebos.com/model-ernie1.0.1.tar.gz [INFO] 2022-05-20 14:36:54,157 [modeling_ernie.py: 285]: loading pretrained model from C:\Users\xwhmajun\.paddle-ernie-cache\466eabcffd6d6a83ae9cb97dd1a167bd Traceback (most recent call last): File "D:\anaconda3\lib\site-packages\IPython\core\interactiveshell.py",...
测试数据infer.txt文件中,两段短文本比较,完全不同的两个文本: : run_infer.py:50 * 9640 ('在家电脑做什么兼职好呢\t海 尔 全自 动 洗 衣 机', '[0.22760319709777832, 0.7723968029022217]'), 这两个结果字段代表什么意思?有文档说明吗?怎么才能求出文本的相似度得分?
用ERNIE\applications\tasks\text_matching\run_infer.py,预测data\predict_data\infer.txt数据,两个完全不同的短文本比较: : run_infer.py:50 * 9640 ('在家电脑做什么兼职好呢\t海 尔 全自 动 洗 衣 机', '[0.22760319709777832, 0.7723968029022217]'), 这两个结果字段代表什么意思?有文档说明吗?怎么才能求出文本的相似度得分?