NLP_related_projects issues

UnicodeDecodeError: 'utf-8' codec can't decode byte 0xd5 in position 144: invalid continuation byte

1

请问这个如何解决 Traceback (most recent call last): File "D:/down/NLP_related_projects-master/BERT/Bert_sim/run_similarity.py", line 716, in sim = BertSim() File "D:/down/NLP_related_projects-master/BERT/Bert_sim/run_similarity.py", line 141, in __init__ self.tokenizer = tokenization.FullTokenizer(vocab_file=cf.vocab_file, do_lower_case=True) File "D:\down\NLP_related_projects-master\BERT\Bert_sim\bert_model\tokenization.py", line 165, in __init__...

NoahZhao

文本相似度结果产生的原理？

1

一般计算文本相似度会用到余弦距离或者欧氏距离等，那么在这个项目中用到的是什么方法或者原理呢？

SunnyCc123

bert_model没有

1

![Uploading image.png…]() 这里面的bert_model指的是什么呢

SharelockSmile

dataset

2

请问RGCN链路预测这个数据集是什么呀？可以发出来嘛

hande1998

相似性结果没有改变

为什么我用自己预训练得到的模型来做英文的文本相似性分析时，不管怎么改变两个用来预测的句子，最后的结果都很接近0.5。而且最后两个句子预测得到的label好像不是计算得到的，就是一开始设置的那个label啊？

QinFan912

bert模型文件好像没有

1

bert模型文件好像没有 from bert_dir.bert.bert import modeling from bert_dir.bert.bert import tokenization from bert_dir.bert.bert import optimization bert_dir不存在

lianyongxing