Jiaxin-Liu-96
Jiaxin-Liu-96
(不好意思我真的非常新手) 1.请问除了修改model中的文件,相应的utils文件夹中tokenizer.py和vocab.py文件,或者是其他地方需要做调整吗? 2.之所以提出问题1是因为我喂我自己的数据集进去做**文本的二分类**问题时,出现了**分类标签一边倒的情况**(即全部分到0类去了),但我却不知道该如何找原因去做调整。请问对于这种情况,**您有什么调整方向上的建议吗**? 【关于2点的详细阐述:我喂进去的文本长度比较长,英文数据集,text_a和text_b拼接后平均词数为318左右】 我的具体参数设置如下: `python3 -u run_kbert_cls3.py --pretrained_model_path ./models/model.bin --config_path ./models/config.json --vocab_path ./models/vocab.txt --train_path ./datasets/mydataset/final_corpus_split/final_train_ti_ab.tsv --dev_path ./datasets/mydataset/final_corpus_split/final_dev_ti_ab.tsv --test_path ./datasets/mydataset/final_corpus_split/final_test_ti_ab.tsv --encoder bert --epochs_num 5 --batch_size 16 --seq_length 512 --kg_name none...
> 你好!将model文件夹中的model.bin 、json文件、和vocab.txt文件换成英文bert对应的文件,项目也跑不起来,请问可以告知一下其他处理细节吗? 我后来查了一下代码,发现最难改的地方就是在知识图谱注入的处理时,作者采用的是一个一个中文字符读入,然后再给其找相应的知识补充,在使用英文的时候例如thank就会被拆成T-H-A-N-K,然后由字符去知识图谱里找词汇,所以跑不动。后来我直接换了别的模型了
> > (不好意思我真的非常新手) > > 1.请问除了修改model中的文件,相应的utils文件夹中tokenizer.py和vocab.py文件,或者是其他地方需要做调整吗? > > 2.之所以提出问题1是因为我喂我自己的数据集进去做**文本的二分类**问题时,出现了**分类标签一边倒的情况**(即全部分到0类去了),但我却不知道该如何找原因去做调整。请问对于这种情况,**您有什么调整方向上的建议吗**? > > 【关于2点的详细阐述:我喂进去的文本长度比较长,英文数据集,text_a和text_b拼接后平均词数为318左右】 > > 我的具体参数设置如下: > > `python3 -u run_kbert_cls3.py --pretrained_model_path ./models/model.bin --config_path ./models/config.json --vocab_path ./models/vocab.txt --train_path ./datasets/mydataset/final_corpus_split/final_train_ti_ab.tsv --dev_path ./datasets/mydataset/final_corpus_split/final_dev_ti_ab.tsv...
> Hey, > With regards to english. I extracted some domain specific triples from english dbpedia, so this aspect is covered. I have used a pytorch script to convert cased...
您好,我已经收到了您的邮件,我会尽快回复!祝您生活愉快!