MrSworder comments

Results 8 comments of


                                            MrSworder

预训练GPT-Chinese的训练成本

请问能透露下预训练GPT-Chinese的训练成本吗，用了几张GPU，配置如何，数据集大小，跑了多长时间。我准备自己训练一个预训练模型，但是不知到需要多少张GPU，多久能跑完。

加载electra-base模型时，self.layers[layer]报错找不到“Emebedding-Mapping"。发现在构建模型时，prepare_variable()构建和variable_mapping()构建的结构有出入

> embedding_size等于hidden_size时，为什么还要多此一举加个mapping层？显存太多了？我对embedding_size和hidden_size的理解可能有误，我理解的embedding_size是用来每一个输入字符的编码的维度大小，hidden_size是每一个注意力负责学习的维度大小，mapping层是将每个注意力头组合起来生成embedding吗？（事实上我也不知道对模型结构我有多少理解了有多少没理解，请问我该如何比较全面的了解模型结构呢，就是模型训练过程和使用时各个结构的作用和使用方法？）

加载electra-base模型时，self.layers[layer]报错找不到“Emebedding-Mapping"。发现在构建模型时，prepare_variable()构建和variable_mapping()构建的结构有出入

> embedding_size等于hidden_size时，为什么还要多此一举加个mapping层？显存太多了？请问 embedding_size==hidden_size时，例如加载已有的electra_base，用bert4keras该怎么加载？bert4keras里面用到的load_weight_from_checkpoint()里面时用mapping一层一层读的，但是没有embedding-mapping层报错了。

加载electra-base模型时，self.layers[layer]报错找不到“Emebedding-Mapping"。发现在构建模型时，prepare_variable()构建和variable_mapping()构建的结构有出入

> embedding_size等于hidden_size时，为什么还要多此一举加个mapping层？显存太多了？我认为我家在electra_base的问题是在models.py中这两个地方出现了差错， transformer = MODEL(**configs) transformer.build(**configs) 前一句用的是构建了ELECTRA的结构，是有Embedding-Mapping层的，后一句build()中，有一句outputs = self.prepare_embeddings(outputs) 这里的prepare_embeddings()调用的是BERT类中的函数，在这个函数中没有为hidden_size==embedding_size的函数设置Embedding_mapping层。因此在load_weights_from_checkpoint（）的时候，遍历了electra的variable_mapping，在这里的layer=self.layers[layer]出现了keyError。（我用的是bert4keras-0.6.4版本）

MrSworder

预训练GPT-Chinese的训练成本

加载electra-base模型时，self.layers[layer]报错找不到“Emebedding-Mapping"。发现在构建模型时，prepare_variable()构建和variable_mapping()构建的结构有出入

加载electra-base模型时，self.layers[layer]报错找不到“Emebedding-Mapping"。发现在构建模型时，prepare_variable()构建和variable_mapping()构建的结构有出入

加载electra-base模型时，self.layers[layer]报错找不到“Emebedding-Mapping"。发现在构建模型时，prepare_variable()构建和variable_mapping()构建的结构有出入

pretrain with multigpu

训练好的 pytorch 模型转回到tensorflow

Code issue

optimal hyperparameters issue