megemini
megemini
@DrownFish19 @luotao1 这个算法还搞不?🫠
> 外部是否有python实现的版本?能否对齐python实现? 参考的 https://github.com/zyushun/Adam-mini/blob/main/adam_mini/adam_mini.py ,外部的 python 版本都是基于 torch 的,跟 paddle 细节还是有些不一样,比如 torch 用 state 存储变量,paddle 用 accumulators。 能否对齐?简单说:精度对齐不了。 原因上面也说了,有可能是 paddle 自己实现的 tensor 更新有问题,跟算法本身可能关系不大。 目前看,显存精简可以实现,精度问题还需要 paddle 内部排查一下 ~
> 这个更新公式,`p += (mom1 / denom) * (-(lr / (1.0 - beta1_pow)))`和原算法有区别吗? 原来那个写错了,第一个参数是 `mom1` ,而不应该是 `moment1`
> > > 外部是否有python实现的版本?能否对齐python实现? > > > > > > 参考的 https://github.com/zyushun/Adam-mini/blob/main/adam_mini/adam_mini.py ,外部的 python 版本都是基于 torch 的,跟 paddle 细节还是有些不一样,比如 torch 用 state 存储变量,paddle 用 accumulators。 > > 实现不同而已,计算过程应该是相似的,能否验证在单次更新下存在的精度误差范围? 现在问题是,paddle 的...
### Update 20250606 - 已经对齐 torch 的 Adam_mini 算法 ~ 以下是测试代码: ``` python import paddle import torch import numpy as np import matplotlib.pyplot as plt from adam_mini import Adam_mini from...
### Update 20250610 - 修复 moment 的 shape,对齐 torch 之前确实有问题!排查了一天,终于找到问题了 ~ 原因是: - torch 的 linear 层 `torch.nn.Linear(in_features, out_features)` 的 weight 是 `(out_features,in_features)` - 但是,embd 层却不是!!! adamw_mini 原作者将 linear 层与...
@DrownFish19 ci 过了 ~ 看看还有啥要搞的?~ 🤗
> 增加adamw_mini的CI case,可增加一个case可以参考上面的测试用例,ci测试保证adammini能跑通 已增加一个 test ~ 模型使用的是上面测试用的模型,保证了所有分支的覆盖 ~ 以下为测试日志: ``` shell > python -m unittest test_adamw_mini.py /home/shun/venv39dev/lib/python3.9/site-packages/paddle/utils/cpp_extension/extension_utils.py:711: UserWarning: No ccache found. Please be aware that recompiling all source files may...
@DrownFish19 能不能帮忙看看 [PaddleNLP-CI-Unittest-GPU](https://xly.bce.baidu.com/paddlepaddle/Paddle-NLP/newipipe/detail/12976208/stage/19196224/0?jump=latestJob) 这个 CI ~ 运行超时了 ~ 是我这个 pr 引起的?应该不至于吧 ... ...
x2paddle 是把 PyTorch/TF/ONNX/Caffe 转为 paddle 的模型 ~ `x2paddle --framework=paddle --model=best.paddle --save_dir= ` 这个命令这样用应该有问题的 ~ 可以参考 `test_benchmark` 下面的模型中 `run_convert.sh` 或者 `convert.py` 的写法 ~