Results 1 comments of SinGaln

> 我是按照code6实现的这一部分,然后我感觉底下这部分代码就代表了scale offset,只不过是同时计算了 base = torch.einsum("...r,hr->...hr", base, self.weight) + self.bias OK,明白了!!! 还有一个小问题是您在flash进行预训练的时候,并没有在代码中看到Mixed chunk Attention分块混合的部分,而是直接采用GAU来进行训练的,这样对于预训练结果是不是会有一些影响呢?