Weitang Liu
Weitang Liu
感谢提供这么好的主题,可以记录自己的学习过程了。https://lonepatient.top/
@Dwz101 您好,能否把完整的错误日志发下呢?但看这个无法看出什么问题。不知道colab跟正常的服务器运行环境有区别吗? 没有在colab实验过。
使用transformers加载一些案例https://github.com/lonePatient/CLUE_pytorch,可以试试
@hazardwayne 中文版都没有spm_model文件的,你直接使用vocab.txt
@jiezouguihuafu 某些中文任务上来说,albert_zh比google版本好,另外,针对激活函数,relu会比glue快,另外对于vocab,google对英文才使用sentencepiece,对于中文也是用的是wordpiece tokenizer
@roberts-sh 尝试降低下学习率,最近在实验英文版的,发现学习率影响太大了 对于不同版本的albert
@652994331很难说所有任务一定要降低学习率,建议看下finetune日志,关注下loss以及指标的变化,出现问题了,优先尝试降低学习率。昨天个人实验也是降低学习率达到最好。
用的是logits,维度是num_labels大小,concat操作,所以加上num_labels个数 在 2020-03-31 16:31:22,"heroazhe" 写道: endlogits里面的soft_label为啥要加上num_label? — You are receiving this because you are subscribed to this thread. Reply to this email directly, view it on GitHub, or unsubscribe.
@heroazhe 很简单的一个想法啊,结束位置依赖于开始位置,很自然的将开始位置信息与文本语义向量结合作为结束预测的输入,那相当于有两种方式,直接hard label即argmax(logits),这种的话train时候hard label是真实的,但是预测的时候是argmax的,不一定正确,这个就像seq2seq里面的“Exposure @Bias”(好像那么一回事,呵呵瞎哔哔的),那么就可以使用soft label,即softmax预测的logits,这样train和test是同步的,当然可以折中,抽样,加一个概率判断是使用hard还是soft。
@heroazhe 不会吧的啊 ,你看下bert的输出