Bo仔很忙 comments

Results 87 comments of


                                            Bo仔很忙

basic_masked_language_model.py

警告是因为没有成功加载预训练参数，因为你用的bert-base-chinese的权重的key和本框架没有完全对齐，导致Laynorm层的权重和偏置未成功加载，可以使用[转化脚本](https://github.com/Tongjilibo/bert4torch/blob/master/examples/convert_script/convert_bert-base-chinese.py)修改一下，本项目使用到的[部分数据集下载链接](https://github.com/Tongjilibo/bert4torch/blob/master/examples/README.md)，[直接加载的checkpoint清单](https://github.com/Tongjilibo/bert4torch) 之前issue中有提及：#2

basic_language_model_nezha_gen_gpt.py

不是的，`convert_nezha_gpt_dialog.py`转的权重是[nezha_gpt_dialog](https://github.com/bojone/nezha_gpt_dialog)这个项目finetune后的权重(不是预训练模型)。`basic_language_model_nezha_gen_gpt.py`是用的[nezha_gpt](https://github.com/bojone/chinese-gen)，我应该是用的transformers-cli convert来转的(你可以试一下，注意transformers的版本)，nezha_gpt其实是bert结构的gpt模型(带lm的mask)，所以model并未传入`model='nezha'`

RuntimeError: masked_select: expected BoolTensor or ByteTensor for mask

> 已经自我修复了，不知道是不是只有我自己的问题还是说所有的都是这样的你是用的pip版本吗？pip上的0.1.6版本当时配合的task_sequence_labeling_ner_crf.py也是attention_mask转为bool类型的，后续我在CRF内部自己转bool()类型了，你可以用git上的最新代码试下，应该就没刚刚的问题了

RuntimeError: masked_select: expected BoolTensor or ByteTensor for mask

> ![image](https://user-images.githubusercontent.com/42829645/177290276-8a06b992-c8ef-4faf-9cf6-9f51223e0653.png) 刚看到，你这边这个问题还有吗？

KeyError: 'bert.embeddings.LayerNorm.gamma'

我也遇到了，你解决了吗

KeyError: 'bert.embeddings.LayerNorm.gamma'

> 我也遇到了，你解决了吗解决了，修改了了下variable_mapping里面的映射，把gamma和beta修改为weight和bias

bert+crf 做ner任务的基础案例出现loss 陡增情况

> 数据集用的你代码里面的数据china-people-daily-ner-corpus.tar.gz 方便贴你下你用的bert4torch的版本，是pip的还是用的git最新的？如果用的是旧版本可以用git最新的代码试一下，我这边也验证下看看

bert+crf 做ner任务的基础案例出现loss 陡增情况

> git clone https://github.com/Tongjilibo/bert4torch 使用这种方式直接得到包，然后版本 0.1.7 我这测试下来的确存在这个bug，我先换了个CRF，目前测下来应该是可以的，你可以用最新的git代码测试一下看看 ![image](https://user-images.githubusercontent.com/33407736/179342330-fc230b28-bcc2-4ed5-9fc8-0e46e5d2c055.png)

一个可能的小问题

> 在脚本layers.py中55行，cond = cond.unsqueeze(dim=1)，这里的dim应该是等于0吧，调试发现是不太对的，老哥确认下你调试发现哪里不太对啊，我看了下感觉应该还是dim=1吧，第0维是batch_size维度吧，我刚刚使用task_conditional_language_model.py这个示例来看的；此外我看了下[bert4keras源代码](https://github.com/bojone/bert4keras/blob/f31235c5fd4db4d95f57901de48a46b9d6b728a3/bert4keras/layers.py#L583:7)，应该也是`cond = K.expand_dims(cond, 1)`，你这边具体看下是啥问题？

返回 embedding 和 huggingface 的返回结果不完全一致

试过把transformer中max_length这个入参去掉，两者是一致的