bert-utils icon indicating copy to clipboard operation
bert-utils copied to clipboard

一行代码使用BERT生成句向量,BERT做文本分类、文本相似度计算

Results 56 bert-utils issues
Sort by recently updated
recently updated
newest added

训练和评估都完成了。 INFO:tensorflow:***** Eval results ***** INFO:tensorflow: eval_accuracy = 0.5 INFO:tensorflow: eval_auc = 0.5 INFO:tensorflow: eval_loss = 0.6931482 INFO:tensorflow: global_step = 7812 INFO:tensorflow: loss = 0.6931507 最后提示: Traceback (most recent call...

您好,想知道data文件夹下的训练集,测试集文件是如何准备的,是通过程序生成的还是通过手写填进去的数据?谢谢,如果通过程序生成,如何生成,可以提供下程序吗?

我利用您开源的数据训练后,loss效果还是不错的,验证集也有接近80%的准确率,但是我实际进行测试的时候,发现两个语义相似度高的句子并不能很好的被识别出来,往往仅有1%的相似度,反观那些可以识别的句子,多半是因为其本身在字符级的相似度较高,模型容易识别这类相似的句子对,并没有在bert上看到较为明显的强大之处。是否是因为这个数据集的原因,以及相似度本身处理起来并不如分类任务效果好?是否BERT在分类任务中会有更好的表现?

1080Ti 单卡 执行下面的代码,直接显存不足了,其他桌面程序用了400M ``` from extract_feature import BertVector bv = BertVector() print(bv.encode(['今天天气不错'])) ``` ``` 2019-06-11 19:40:21.473032: I tensorflow/stream_executor/dso_loader.cc:152] successfully opened CUDA library libcublas.so.10.0 locally 2019-06-11 19:40:24.593479: E tensorflow/stream_executor/cuda/cuda_gpu_executor.cc:216] failed to...

如题 为什么用在encode里用queue来异步获取句向量呢?而且我看里面设置的queue的长度为1,如果有并发的时候 会不会导致丢失数据呢

做文本相似性分析,样本总共160w条,正负样本各占一半,batch_size=16, learning_rate=0.00005, max_seq_len=64, 训练到1000 step后,训练误差基本上0.00001左右,但是到9w step时,误差突然增加到0.7左右,然后就一直在0.7左右徘徊,请问有没有遇到这种情况?谢谢

question

我进行代码的修改, 训练过程中没有出现问题 但是在验证和预测的时候出现看 KEYERROR'0'这个问题, 定位到代码位置是在 label_id = label_map[example.label] 这行 这是什么错误