Weijie Liu comments

Results 63 comments of


Weijie Liu

About the bin File

> > > 您好， > > > 您的论文和idea真的令人印象深刻！ > > > 有过一个问题想要请教您。 > > > 我尝试用您的framework load 我自己的model的时候，是会报错的。 > > > 我看了您之前的回答，您对您的bin文件是做了一定的修改 > > > 想问下，您对您的bin文件做了怎样的修改呢？ > > > 麻烦您了...

> > > 你好我有点好奇，關於"bin文件是通过对Google模型转码得到的" > > > 是什么意思?你是重新pre-trained一个类似BERT的Pre-trained model吗 > > > 如果是的话，是否能详述实作的方法呢 > > > 非常感谢 > > > > > > 并不是重新预训练一个BERT模型，而是将Google训练好的模型参数对应到本项目中各个Tensor上。 > > 具体的转码脚本见我们的UER项目：https://github.com/dbiir/UER-py/blob/master/scripts/convert_bert_from_google_to_uer.py > > 你好:...

复现问题

> 您好，感谢您关于预训练的解答。但在我复现您的成果时碰到两类疑问： > 1、msra数据集的复现效果好像不佳，不知道是不是我batch_size设置不够大的原因；另外想问一下msra的测试验证数据集划分为什么是2：1？最后还想问您一下git上提供的数据是完整的么？ > 2、我尝试让每次的结果都固定，但是即使是您提供的源代码，每次跑的结果仍然是不同的。不知道要怎么解决。期待您的回复。 1. 直接按照指引执行即可，我刚刚又跑了一遍msra, p=0.952, r=0.957, f1=0.954. msra数据集划分是按照百度ernie 1.0来的. 2. 可以尝试固定随机种子。

About our BERT

> 您好 > 请问是否能公开您们在论文实验中所谓的our BERT呢? 谢谢 > ![Inked擷取_LI](https://user-images.githubusercontent.com/32416416/80273692-25fbc800-8707-11ea-8198-0af29b12de49.jpg) 只需要使用这个模型文件即可：https://share.weiyun.com/5HYbmBh

Files unable to download

Can you post the empty link? The model URL is available: https://share.weiyun.com/5GuzfVX

Files unable to download

Hello @geopapa11, I put these three files on my private server, and you can download these files through the following three links: - datasets: http://www.weijieliu.com/download/papers/kbert/datasets/ - google_model.bin: http://www.weijieliu.com/download/papers/kbert/google_model.bin - CnDbpedia.spo:...

Files unable to download

Hi all! for some reason, I can't use the google-drive, so I put K-BERT-related files on my personal server, i.e., [http://www.weijieliu.com/download/papers/kbert/](http://www.weijieliu.com/download/papers/kbert/) However, I found that friends in some areas can't...

Target of soft position index and visible matrix

> Hi~ > 通过soft position index和visible matrix来保持同质embedding空间，避免知识噪音的做法真的是巧妙，但是我有一个疑问，如果把input sentence里面的entity在知识库里找到之后不做soft position index和visible matrix的变换，而是直接转换为几个句子，其中包含原始的input sentence和找到的entity对应到知识库中的句子，然后一句一句的输入到bert中去fine tune的话，是不是也可以达到知识注入的效果呢？并且因为是每个知识都转换成了独立的句子，对应于bert里的hard position index, 这样做会有什么问题吗？请指教，谢谢~ 你说的这个做法是不是可以理解为使用知识库来对句子做数据扩充来fine-tune模型呢？这个想法我们还没做过哈，那在inference阶段该如何做呢？

把model文件夹中模型换成英文bert可行吗？

> 你好，觉得K-Bert的代码写的非常优美，请问我vm=None（即不用知识图谱），然后将model文件夹中的model.bin 、json文件、和vocab.txt文件换成英文bert对应的文件，再finetune时会有影响吗？可以的，这就相当于普通的英文BERT。

把model文件夹中模型换成英文bert可行吗？

> （不好意思我真的非常新手） > 1.请问除了修改model中的文件，相应的utils文件夹中tokenizer.py和vocab.py文件，或者是其他地方需要做调整吗？ > 2.之所以提出问题1是因为我喂我自己的数据集进去做**文本的二分类**问题时，出现了**分类标签一边倒的情况**（即全部分到0类去了），但我却不知道该如何找原因去做调整。请问对于这种情况，**您有什么调整方向上的建议吗**？ > 【关于2点的详细阐述：我喂进去的文本长度比较长，英文数据集，text_a和text_b拼接后平均词数为318左右】 > 我的具体参数设置如下： > `python3 -u run_kbert_cls3.py --pretrained_model_path ./models/model.bin --config_path ./models/config.json --vocab_path ./models/vocab.txt --train_path ./datasets/mydataset/final_corpus_split/final_train_ti_ab.tsv --dev_path ./datasets/mydataset/final_corpus_split/final_dev_ti_ab.tsv --test_path ./datasets/mydataset/final_corpus_split/final_test_ti_ab.tsv --encoder bert --epochs_num 5...