movecpp comments

Results 20 comments of


                                            movecpp

trafficstars

训练过程的一些总结

@zhangxinqila 你用的多GPU训练吧？极客云？我的是本机训练，单卡，windows。无论是原版还是DataLoader加载方式，数据集都是一次性读取到内存中的，所以不存在IO耗时的问题。nvsmi是每秒统计一次数据的，算力强大的话，基本上波动不是很大，我用的AMD处理器，估计是内存延时问题吧。我刚开始把玩这件宝物的时候，利用率仅65%左右，现在基本98%。 print问题，一般占用几毫秒吧，个别机器十来毫秒，只要不是每一个step都print一下没什么影响的。

训练过程的一些总结

@zhangxinqila 你5层的生成效果怎么样？词向量是多大？

训练过程的一些总结

@zhangxinqila 是的，无论loss能够压低到什么程度，感觉gpt-2对于中文的学习能力很差，不知道是不是生成方式的不同所致，还是压根就无法学习中文这门复杂度极高的语言(英文的来来去去都是那26个字母，汉字数以万计)。像AIDungeon这样的项目，生成的结果是比较完美的，也许可以参考一下，这个项目的模型达到了5.8G，堪称巨大。

训练过程的一些总结

@zhangxinqila 不是gpt-2不能学习中文，而是相比英文的26个字符而言，中文字数太多了，相应的模型必定是要以天文数字的参数量来训练的。貌似目前还没看到几个语言逻辑上过的去的中文模型，反观英语，26个字符跟汉字作品相比简直是九牛一毛，想起来就有点绝望，世界上唯一一个能够训练中文gpt-2的，恐怕只有强制绿的老黄了。。。

训练过程的一些总结

@zhangxinqila 最新的reformer有没有研究一下老铁？

训练过程的一些总结

@zhangxinqila 厉害，感谢分享。其实我也尝试过，topk为1时，上文一样，生成的下文就是固定的，虽然比原来狗屁不通的下文好上一些，但逻辑上还是无法达到比较完美的状态。不管是禁用随机抽样，还是固定pytorch的random seed，貌似都差不多，实在是打击了研究下去的动力。 gpt-2的缺陷也很明显了，在gpt-2面前，只有强制绿的老黄是站在鄙视链顶端的男人了。拜读了一下reformer的论文，有点啃天书的感觉，作者使用局部敏感哈希的想法恐怕也是来自于此，未读reformer时，也有过使用DHash验证上下文的想法，只是算力捉鸡，实在无力折腾。reformer一出，自己动手改gpt-2就没必要了，坐等大神更新算了。 reformer一出，分分钟就是万字级别的模型长度，论训练速度，能甩gpt-2好几条街，不过，原型的生成质量，恐怕也不比gpt-2好的上多少。有个老外搬砖的一个半成品的Reformer pytorch版本，看样子快完成了，https://github.com/zbloss/reformer。

训练过程的一些总结

大体上通顺还是能够做到的，只是生成模块需要整改整改

训练过程的一些总结

@zhangxinqila 没注意，今晚拿来把玩一下看看。

训练过程的一些总结

> @Morizeyao @walkingonthestreet @kingmo888 大家有没有办法提高模型的泛化能力啊，现在感觉输出原文是没有问题的，但是前文要求要与训练时传递的文本相一致，这个就有点老大难了，更不用说那些没有训练过的文本作为前文了。但是一想到GPT2使用的是Transformer来抽取特征，特别是Masked Self Attention这个机制，就觉得几乎无解，除非训练时就对前文作为特殊限定，否则生成时很难做到与训练一致。超大型训练集，大dropout，长context，除此之外，暂时没有什么好办法，除非自己改模型。但不管怎么说，超大参数模型似乎是必走的路。咱们不是老黄，没有强制绿的超能力，恐怕只能等待大牛放出新模型了。

图片大小设置

160X60