MrSworder

Results 8 comments of MrSworder

请问能透露下预训练GPT-Chinese的训练成本吗,用了几张GPU,配置如何,数据集大小,跑了多长时间。我准备自己训练一个预训练模型,但是不知到需要多少张GPU,多久能跑完。

> embedding_size等于hidden_size时,为什么还要多此一举加个mapping层?显存太多了? 我对embedding_size和hidden_size的理解可能有误,我理解的embedding_size是用来每一个输入字符的编码的维度大小,hidden_size是每一个注意力负责学习的维度大小,mapping层是将每个注意力头组合起来生成embedding吗?(事实上我也不知道对模型结构我有多少理解了有多少没理解,请问我该如何比较全面的了解模型结构呢,就是模型训练过程和使用时各个结构的作用和使用方法?)

> embedding_size等于hidden_size时,为什么还要多此一举加个mapping层?显存太多了? 请问 embedding_size==hidden_size时,例如加载已有的electra_base,用bert4keras该怎么加载?bert4keras里面用到的load_weight_from_checkpoint()里面时用mapping一层一层读的,但是没有embedding-mapping层报错了。

> embedding_size等于hidden_size时,为什么还要多此一举加个mapping层?显存太多了? 我认为我家在electra_base的问题是在models.py中这两个地方出现了差错, transformer = MODEL(**configs) transformer.build(**configs) 前一句用的是构建了ELECTRA的结构,是有Embedding-Mapping层的,后一句build()中,有一句outputs = self.prepare_embeddings(outputs) 这里的prepare_embeddings()调用的是BERT类中的函数,在这个函数中没有为hidden_size==embedding_size的函数设置Embedding_mapping层。因此在load_weights_from_checkpoint()的时候,遍历了electra的variable_mapping,在这里的layer=self.layers[layer]出现了keyError。 (我用的是bert4keras-0.6.4版本)

> Or this: https://github.com/richarddwang/electra_pytorch Hello,I tried electra_pytorch, but only one GPU was running. Have you ever run it with multigpu? How did you do that?

同样想问这个问题,尝试了很多办法,只能转成h5格式的,ckpt格式还是没办法将bin或者pth转成ckpt格式,请求大佬指点

I have the same problem. It's beacuse of wrong version of transfomers.#1392 But after changing transformers' version, the torch will report a error: ImportError: cannot import name 'SAVE_STATE_WARNING' from 'torch.optim.lr_scheduler'...

> > I run the code on multiple datasets that used in the paper. But I could not achieve the precision described in the paper. Can you publish the optimal...