toyoululu

Results 2 issues of toyoululu

1.修改了GRU中公式计算错误,去除了多余的线性层。 2.修改了positive_loss和negtive_loss定义,解决了损失值合并时可能出现负数的问题。 3.对用GPU训练可能会有问题,model.evaluate返回值接收不正确进行了修改

attention_mask = ~torch.tril(torch.ones((tl, tl), dtype=torch.bool, device=self.dev)) seqs的维度应该是(batch_size,seq_len,embedding)其中(tl, tl)怎么能保证batch_size=seq_len? seqs = torch.transpose(seqs, 0, 1)为什么要transpose呀 期待你的答复