MaxMax issues

Results 15 issues of


MaxMax

梯度累积 - gradient accumulation 在深度学习训练的时候，数据的batch size大小受到GPU内存限制，batch size大小会影响模型最终的准确性和训练过程的性能。在GPU内存不变的情况下，模型越来越大，那么这就意味着数据的batch size只能缩小，这个时候，梯度累积（Gradient Accumulation）可以作为一种简单的解决方案来解决这个问题。梯度累积（Gradient Accumulation）是一种不需要额外硬件资源就可以增加批量样本数量（Batch Size）的训练技巧。这是一个通过时间换空间的优化措施，它将多个Batch训练数据的梯度进行累积，在达到指定累积次数后，使用累积梯度统一更新一次模型参数，以达到一个较大Batch Size的模型训练效果。累积梯度等于多个Batch训练数据的梯度的平均值。所谓梯度累积过程，其实很简单，我们梯度下降所用的梯度，实际上是多个样本算出来的梯度的平均值，以batch_size=128为例，你可以一次性算出128个样本的梯度然后平均，我也可以每次算16个样本的平均梯度，然后缓存累加起来，算够了8次之后，然后把总梯度除以8，然后才执行参数更新。当然，必须累积到了8次之后，用8次的平均梯度才去更新参数，不能每算16个就去更新一次，不然就是batch_size=16了。传统的深度学习 ``` for i, (inputs, labels) in enumerate(trainloader): optimizer.zero_grad() # 梯度清零 outputs = net(inputs) # 正向传播...

good first issue

MaxMax

model source will not open?

梯度累积（gradient accumulation）

使用torch的高版本（>1.6.0）训练需要关闭 FP16

训练500个Epoch+，Loss小于17才有好的效果

提供了基于因果卷积的低时延流式生成和chunk流式生成机制