megemini

Results 108 comments of megemini

@HydrogenSulfate 今天我在 docker 里面重新编译了一遍,带有测试项,主要的几个测试都没啥问题,比如 `jit_kernel_test` `test_adam_op` `test_adamw_op` `test_merged_adam_op`,其中的 `test.cc` 也没啥问题,测试结果如下: 测试结果 ``` shell ➜ build git:(hack7_amsgrad) ctest -R jit_kernel_test -V UpdateCTestConfiguration from :/paddle/Paddle/build/DartConfiguration.tcl UpdateCTestConfiguration from :/paddle/Paddle/build/DartConfiguration.tcl Test project /paddle/Paddle/build Constructing...

> 1. 看了一下CI,xpu和PY3以及PY3PIR,好像遇到了段错误导致大量单测报错,根据我的经验,可以确认一下你加的代码里,是否有某些你添加的数据指针,访问前确保其被分配了内存。 嗯,这里面很多类似错误,可我咋感觉不是咱们这个 PR 引入的,比如 `test_imperative_qat_fuse` ,这里面没多少东西,也跟 adam 没啥关系,但是也出现类似错误 ``` shell 2024-09-19 00:39:49 49/75 Test #1839: test_imperative_qat_fuse ...........................***Failed 1.93 sec 2024-09-19 00:39:49 Hint: Your machine support AVX, but the...

是否可以从 PR-CI-Kunlun-R200 出现的问题入手,xpu 底层不支持 amsgrad,所以我只修改了函数的参数列表,但是也出现了段错误 ``` shell 2024-09-19 14:33:25 1/1 Test #2332: test_merged_adam_op_xpu ..........***Failed 3.69 sec 2024-09-19 14:33:25 XPURT /paddle/build/python/paddle/base/../libs/libxpurt.so.1 loaded 2024-09-19 14:33:25 XCCL /paddle/build/python/paddle/base/../libs/libbkcl.so loaded 2024-09-19 14:33:25 [14:33:22][bddwd-isa-ai-chip5.bddwd.baidu.c][22575][WARN][BKCL][globals.cpp:177] xccl...

> 举个例子,你第一个挂的单测是这个 👍️👍️👍️ 赞 ~ 现在问题是,我这边复现不出错误 🤣 今天在 docker 下面重新编译测试,也没啥问题 ... ... 要不申请个 aistudio 的编译环境试试? 这是之前的测试测试结果 ``` shell ➜ build git:(hack7_amsgrad) ctest -R jit_kernel_test -V UpdateCTestConfiguration from :/paddle/Paddle/build/DartConfiguration.tcl UpdateCTestConfiguration from...

这个算子木有做映射 ~ docs/inference_model_convertor/op_list.md 这里面是目前支持的算子 ~ 可以在 x2paddle/op_mapper/pytorch2paddle/aten.py 里面先尝试一下实现这个算子 ~

@IAmAlwaysOnline 从错误信息上来看,这里的 `MaxPool{N}D` 传入了一个 `dilations` 属性 ~ 目前 paddle 的 `MaxPool{N}D` 貌似不支持这个属性,所以转换的时候报错了 ~~~

@vivienfanghuagood 根据 https://github.com/PaddlePaddle/X2Paddle/pull/1064 中的方法,日志已经打开了 ~ 效率云貌似有点问题,可以看一下这里: https://xly.bce.baidu.com/paddlepaddle/x2paddle-ci/newipipe/detail/11736915/job/27809560 ``` shell 2024-10-21 12:13:00 [2024-10-21 04:13:00,355] [ INFO] convert.py:303 - Now translating model from onnx to paddle. 2024-10-21 12:13:00 Converting node 1 ......

> 看起来卡在了OneDNN转换,你试试config.DisableMKLDNN(),再运行日志看看。 另外 @zhanglirong1999 看看是否有建议呢。 貌似不行 ~ 提示木有这个属性: ``` python 2024-10-21 17:36:17 E 2024-10-21 17:36:17 ====================================================================== 2024-10-21 17:36:17 ERROR: test (__main__.TestAbsConvert) 2024-10-21 17:36:17 ---------------------------------------------------------------------- 2024-10-21 17:36:17 Traceback (most recent call...

> 这边似乎是走到了onednn_context里面,但是后面没有更确切的信息,暂时没有更多的建议。如果关闭了onednn可以跑过,确认是onednn的问题,后续有需要,onednn会跟进一下。 CI 还是卡在了 `create_predictor` ~

在 aistudio 上测试一下 llama 的测试用例,提示出错了,目前分析: - AdamWMini 初始化可以了,不会报 parameters 参数问题 - 我将 AdamWMini 改回了最早的那个没有分块的版本,也报如下错误,所以,目前不清楚这个错误是啥导致的 - 目前测试看来,后向出问题了,需要先把这个问题定位一下,再看看后续参数更新有木有问题(由于 AdamWMini 是使用 named_parameters 的,所以,这里使用 parameters 不确定后面会不会有分块问题,也就是 shape 对不上的情况 ~ ) ``` shell aistudio@jupyter-942478-8790893:~/PaddleNLP$ python...