Chinese-Text-Classification-Pytorch
Chinese-Text-Classification-Pytorch copied to clipboard
Bert后加nn.LSTM
请问nn.LSTM的batch_first设置成False但实际上没有改变data维度顺序(batch在第一位),对结果会产生怎样的影响? 在这么做的情况下,我把一层lstm层接到了bert的第六层之后输出,在第一个epoch比bert高了近一个点,后来有所降低但稳定比完整的bertbase高,请问您知道这个是什么原因吗?
请问把一层lstm层接到了bert的第六层,这个操作是怎么实现的呢。