SinGaln comments

Repositories
Issues
Comments

Results 1 comments of


                                            SinGaln

关于GAU单元的问题

> 我是按照code6实现的这一部分，然后我感觉底下这部分代码就代表了scale offset，只不过是同时计算了 base = torch.einsum("...r,hr->...hr", base, self.weight) + self.bias OK，明白了！！！还有一个小问题是您在flash进行预训练的时候，并没有在代码中看到Mixed chunk Attention分块混合的部分，而是直接采用GAU来进行训练的，这样对于预训练结果是不是会有一些影响呢？