megemini comments

Results 108 comments of


                                            megemini

【Hackathon 8th No.32】 Adam-mini 精调算法复现

@DrownFish19 @luotao1 这个算法还搞不？🫠

【Hackathon 8th No.32】 Adam-mini 精调算法复现

> 外部是否有python实现的版本？能否对齐python实现？参考的 https://github.com/zyushun/Adam-mini/blob/main/adam_mini/adam_mini.py ，外部的 python 版本都是基于 torch 的，跟 paddle 细节还是有些不一样，比如 torch 用 state 存储变量，paddle 用 accumulators。能否对齐？简单说：精度对齐不了。原因上面也说了，有可能是 paddle 自己实现的 tensor 更新有问题，跟算法本身可能关系不大。目前看，显存精简可以实现，精度问题还需要 paddle 内部排查一下～

【Hackathon 8th No.32】 Adam-mini 精调算法复现

> 这个更新公式，`p += (mom1 / denom) * (-(lr / (1.0 - beta1_pow)))`和原算法有区别吗？原来那个写错了，第一个参数是 `mom1` ，而不应该是 `moment1`

【Hackathon 8th No.32】 Adam-mini 精调算法复现

> > > 外部是否有python实现的版本？能否对齐python实现？ > > > > > > 参考的 https://github.com/zyushun/Adam-mini/blob/main/adam_mini/adam_mini.py ，外部的 python 版本都是基于 torch 的，跟 paddle 细节还是有些不一样，比如 torch 用 state 存储变量，paddle 用 accumulators。 > > 实现不同而已，计算过程应该是相似的，能否验证在单次更新下存在的精度误差范围？现在问题是，paddle 的...

【Hackathon 8th No.32】 Adam-mini 精调算法复现

### Update 20250606 - 已经对齐 torch 的 Adam_mini 算法～以下是测试代码： ``` python import paddle import torch import numpy as np import matplotlib.pyplot as plt from adam_mini import Adam_mini from...

【Hackathon 8th No.32】 Adam-mini 精调算法复现

### Update 20250610 - 修复 moment 的 shape，对齐 torch 之前确实有问题！排查了一天，终于找到问题了～原因是： - torch 的 linear 层 `torch.nn.Linear(in_features, out_features)` 的 weight 是 `(out_features,in_features)` - 但是，embd 层却不是！！！ adamw_mini 原作者将 linear 层与...

【Hackathon 8th No.32】 Adam-mini 精调算法复现

@DrownFish19 ci 过了～看看还有啥要搞的？～ 🤗

【Hackathon 8th No.32】 Adam-mini 精调算法复现

> 增加adamw_mini的CI case，可增加一个case可以参考上面的测试用例，ci测试保证adammini能跑通已增加一个 test ～模型使用的是上面测试用的模型，保证了所有分支的覆盖～以下为测试日志： ``` shell > python -m unittest test_adamw_mini.py /home/shun/venv39dev/lib/python3.9/site-packages/paddle/utils/cpp_extension/extension_utils.py:711: UserWarning: No ccache found. Please be aware that recompiling all source files may...

【Hackathon 8th No.32】 Adam-mini 精调算法复现

@DrownFish19 能不能帮忙看看 [PaddleNLP-CI-Unittest-GPU](https://xly.bce.baidu.com/paddlepaddle/Paddle-NLP/newipipe/detail/12976208/stage/19196224/0?jump=latestJob) 这个 CI ～运行超时了～是我这个 pr 引起的？应该不至于吧 ... ...

已经把yolov8模型利用#x2paddle --framework=paddle --model=best.paddle --save_dir= 转换成功，但是面对转换成功的我如何进行推理调用呢？就是在paddlepaddle框架内？

x2paddle 是把 PyTorch/TF/ONNX/Caffe 转为 paddle 的模型～ `x2paddle --framework=paddle --model=best.paddle --save_dir= ` 这个命令这样用应该有问题的～可以参考 `test_benchmark` 下面的模型中 `run_convert.sh` 或者 `convert.py` 的写法～