Weitang Liu

Results 66 comments of Weitang Liu

@heroazhe 还是那个问题啊 ,训练的时候标签是可知的,可用可不用,这里需呀做实验才知道哪种好,我这里可能是应该是为了应对eval使用soft label,将hard label转化为one-hot形式,纬度保持一致,具体的需要你个人做实验蔡得知。

@tchaton get it a try: ```python from radam import Radam base_optim = RAdam(model.parameters(),lr = 0.001) optimizer = Lookahead(base_optim, k=5, alpha=0.5) ``` I try, no problem

@DrDavidS 目前的代码是把transformers源码download下来试用的,还是老版本,后续跟新成transformers=2.5.1版本

@chenjunqiang 下午时候看过,但感觉它本质是一个工具包,内嵌相关模型。晚点我在详细看看。

@fatmelon 有1400M的bert-wwm模型???

预测参考下chineseGLUE版本吧,预测其实不难。

@vpegasus 你也是使用动态mask吗 我之前自己训练bert的时候,动态mask 10个文件有一个文件会造成你说的崩的情况,我后面处理直接跳过这个文件,对剩下9个文件进行训练,另外这个代码比较乱,回头我整理下。

@hong-feng 两个模型权重大小不一致的 不能对应上 只能加载bright版本

@hong-feng 你是要fine-tuning还是pretrianed?decoder部分使用project共享的话,好像会出问题。