NLPScott
NLPScott
@suwangcompling hidden = hidden.squeeze(), encoder_output = encoder_output.squeeze() you can try it!
麻烦贴下代码位置
https://github.com/NLPScott/bert-Chinese-classification-task/blob/master/optimization.py
建议用lstm的encoder-decoder就可以实现,加上attention,如果对生成的句子要求质量高的话,外加self-attention,self-attention可以参考tranformer架构里面的相应代码,效果基本达到预期,最重要的是训练语料的清洗,以上为个人实践经验,希望对你有用
这个不做分词,投入预训练transformer后,会进行切词,切词的依据是谷歌bert提供的词表
稍后可以发布一下,也可以参考下transformer论文的实现https://github.com/jadore801120/attention-is-all-you-need-pytorch,我读了一下源码,基本上就清楚了 @sangensong
可以看下这个https://github.com/NLPScott/pytorch-pretrained-BERT
直接加载https://storage.googleapis.com/bert_models/2018_11_03/chinese_L-12_H-768_A-12.zip bert中文模型,经过该模型的transformer encoder过程,然后在计算损失的地方做了调整,此处使用交叉熵,以此来fine-tuning