movecpp

Results 20 comments of movecpp
trafficstars

@zhangxinqila 你用的多GPU训练吧?极客云?我的是本机训练,单卡,windows。无论是原版还是DataLoader加载方式,数据集都是一次性读取到内存中的,所以不存在IO耗时的问题。nvsmi是每秒统计一次数据的,算力强大的话,基本上波动不是很大,我用的AMD处理器,估计是内存延时问题吧。 我刚开始把玩这件宝物的时候,利用率仅65%左右,现在基本98%。 print问题,一般占用几毫秒吧,个别机器十来毫秒,只要不是每一个step都print一下没什么影响的。

@zhangxinqila 你5层的生成效果怎么样?词向量是多大?

@zhangxinqila 是的,无论loss能够压低到什么程度,感觉gpt-2对于中文的学习能力很差,不知道是不是生成方式的不同所致,还是压根就无法学习中文这门复杂度极高的语言(英文的来来去去都是那26个字母,汉字数以万计)。像AIDungeon这样的项目,生成的结果是比较完美的,也许可以参考一下,这个项目的模型达到了5.8G,堪称巨大。

@zhangxinqila 不是gpt-2不能学习中文,而是相比英文的26个字符而言,中文字数太多了,相应的模型必定是要以天文数字的参数量来训练的。貌似目前还没看到几个语言逻辑上过的去的中文模型,反观英语,26个字符跟汉字作品相比简直是九牛一毛,想起来就有点绝望,世界上唯一一个能够训练中文gpt-2的,恐怕只有强制绿的老黄了。。。

@zhangxinqila 最新的reformer有没有研究一下老铁?

@zhangxinqila 厉害,感谢分享。 其实我也尝试过,topk为1时,上文一样,生成的下文就是固定的,虽然比原来狗屁不通的下文好上一些,但逻辑上还是无法达到比较完美的状态。不管是禁用随机抽样,还是固定pytorch的random seed,貌似都差不多,实在是打击了研究下去的动力。 gpt-2的缺陷也很明显了,在gpt-2面前,只有强制绿的老黄是站在鄙视链顶端的男人了。 拜读了一下reformer的论文,有点啃天书的感觉,作者使用局部敏感哈希的想法恐怕也是来自于此,未读reformer时,也有过使用DHash验证上下文的想法,只是算力捉鸡,实在无力折腾。reformer一出,自己动手改gpt-2就没必要了,坐等大神更新算了。 reformer一出,分分钟就是万字级别的模型长度,论训练速度,能甩gpt-2好几条街,不过,原型的生成质量,恐怕也不比gpt-2好的上多少。 有个老外搬砖的一个半成品的Reformer pytorch版本,看样子快完成了,https://github.com/zbloss/reformer。

大体上通顺还是能够做到的,只是生成模块需要整改整改

@zhangxinqila 没注意,今晚拿来把玩一下看看。

> @Morizeyao @walkingonthestreet @kingmo888 大家有没有办法提高模型的泛化能力啊,现在感觉输出原文是没有问题的,但是前文要求要与训练时传递的文本相一致,这个就有点老大难了,更不用说那些没有训练过的文本作为前文了。但是一想到GPT2使用的是Transformer来抽取特征,特别是Masked Self Attention这个机制,就觉得几乎无解,除非训练时就对前文作为特殊限定,否则生成时很难做到与训练一致。 超大型训练集,大dropout,长context,除此之外,暂时没有什么好办法,除非自己改模型。但不管怎么说,超大参数模型似乎是必走的路。咱们不是老黄,没有强制绿的超能力,恐怕只能等待大牛放出新模型了。