zero-lora icon indicating copy to clipboard operation
zero-lora copied to clipboard

Sophia 索菲亚优化器 将模型训练成本降低 50%?

Open ziwang-com opened this issue 2 years ago • 0 comments
trafficstars

https://github.com/kyegomez/Sophia 索菲亚优化器 将模型训练成本降低 50%? 有了这个全新的简单即插即用优化器:索菲亚

Sophia:用于语言模型预训练的可扩展随机二阶优化器

现在,实验文件夹中的训练文件已准备就绪!🔥🔥🔥

Sophia 是一种二阶裁剪随机优化算法,它使用对 Hessian 对角线的廉价随机估计作为预调节器和裁剪机制来控制最坏情况的更新大小。它在验证预跟踪损失、总计算和挂钟时间方面实现了比 adam 更好的性能。通过将模型训练成本降低一半,Sophia 可以帮助节省数百万甚至数十亿美元的计算资源。

好处 索菲亚实现了相同的验证训练前损失,步数比亚当少 50%

总计算量减少 50%,挂钟时间减少 50%

无缝集成到现有培训管道中 - 即插即用!

对模型架构或计算基础设施没有特殊要求

支持哈钦森和高斯-牛顿-巴特利特黑森估计量

ziwang-com avatar May 24 '23 23:05 ziwang-com