sdft 多卡运行和参数问题

为什么项目使用多 GPU 运行导致推理结果乱码，得到的评估结果很差呢？请问是什么原因导致的呢另外一个问题是，论文说的是实验运用llama2的默认参数，比如温度等。但是实际推理时好像用的是llama-factory的参数，是0.95。而模型的默认温度是0.6。

Sep 03 '24 08:09 MonrenZheng

您好，感谢您对我们项目的兴趣！

本项目绝大多数实验仅使用了单卡，多卡推理的问题可以参考LLaMA-Factory原仓库。参数问题以控制台实际输出为准。

Sep 03 '24 09:09 rickyang1114

您好，感谢您对我们项目的兴趣！

本项目绝大多数实验仅使用了单卡，多卡推理的问题可以参考LLaMA-Factory原仓库。参数问题以控制台实际输出为准。

哦噢谢谢。那请问参数问题呢？

Sep 03 '24 09:09 MonrenZheng

应该就是llama-factory的默认参数，我没有调这些

Sep 03 '24 09:09 rickyang1114

收到 [WARNING|logging.py:328] 2024-09-03 16:13:36,533 >> We detected that you are passing past_key_values as a tuple and this is deprecated and will be removed in v4.43. Please use an appropriate Cache class (https://huggingface.co/docs/transformers/v4.41.3/en/internal/generation_utils#transformers.Cache) 最后就是还想问问这个warning会有影响吗？

Sep 03 '24 09:09 MonrenZheng

我觉得没有影响。我在实验的时候没管warnings

Sep 03 '24 09:09 rickyang1114

okok感谢了我跑的gsm8k_test结果如下: 好像还是跟结果有点差距了两行上面一行是论文的结果下面一行是我跑的还请指教一下

Sep 03 '24 09:09 MonrenZheng

可能是环境原因吧...

Sep 03 '24 09:09 rickyang1114

哦噢好的感谢

Sep 03 '24 09:09 MonrenZheng

okok感谢了我跑的gsm8k_test结果如下: 好像还是跟结果有点差距了两行上面一行是论文的结果下面一行是我跑的还请指教一下

@zmr66z6xx6 能否详细说一下这个具体的setup呀？是用的本repo提供的command跑的evaluation吗，还是改动了什么参数？是否检查过模型self-disilltation 生成的数据呢？

Sep 03 '24 11:09 SivilTaram

@zmr66z6xx6 另外，这个出问题是在单卡环境下，还是多卡环境下呢？

Sep 03 '24 11:09 SivilTaram

okok感谢了我跑的gsm8k_test结果如下: 好像还是跟结果有点差距了两行上面一行是论文的结果下面一行是我跑的还请指教一下

@zmr66z6xx6 能否详细说一下这个具体的setup呀？是用的本repo提供的command跑的evaluation吗，还是改动了什么参数？是否检查过模型self-disilltation 生成的数据呢？

main分支跑的哟参数没改就用原来的

Sep 03 '24 12:09 MonrenZheng

@zmr66z6xx6 另外，这个出问题是在单卡环境下，还是多卡环境下呢？

多卡乱码结果很差。上面发的是单卡跑出来的

Sep 03 '24 12:09 MonrenZheng

@zmr66z6xx6 可以试试reproduce branch的code，不确定是不是因为Llama-Factory最新的codebase引起的问题

Sep 04 '24 02:09 SivilTaram

@SivilTaram 收到谢谢

Sep 04 '24 06:09 MonrenZheng

@SivilTaram 请问一下这个warning有影响吗

Sep 04 '24 14:09 MonrenZheng

@zmr66z6xx6 没有影响的，这个是说这个API马上会弃用

Sep 04 '24 23:09 SivilTaram

@zmr66z6xx6 没有影响的，这个是说这个API马上会弃用

@SivilTaram 好的谢谢目前用分支部分跑出了seed结果 openfunctions的结果差的有点多了只有10.71%

Sep 05 '24 00:09 MonrenZheng

@zmr66z6xx6 是指seed model自己inference的结果在openfunctions只有10.71%，是吗？

Sep 05 '24 00:09 SivilTaram

@SivilTaram 对的之前main分支也是openfunctions上的test不太理想

Sep 05 '24 00:09 MonrenZheng

@zmr66z6xx6 因为seed model本身和方法没有任何关系，就是llama-2-chat，请问你是用什么精度做的inference，什么显卡呢？以及是只有openfunctions上的结果不理想吗还是？

Sep 05 '24 01:09 SivilTaram

@SivilTaram 我参数啥的都没改全是项目里头指定的卡是RTX 3090 对的目前只是openfunctions test差得多一些。

Sep 05 '24 01:09 MonrenZheng

@zmr66z6xx6 好的，谢谢反馈！可以先在reproduce下试试其他的dataset，比如GSM8K是否能复现sdft v.s. sft 的结果吗？感觉听起来像是硬件支持精度的问题😂 但我还不太确定

Sep 05 '24 02:09 SivilTaram

@SivilTaram 好的收到，感谢

Sep 05 '24 02:09 MonrenZheng

@SivilTaram gsm8k数据集训练的结果：感觉还是openfunction上的出入有点大上述SDFT的结果和论文对上了，但是前两项差了。对了之前说的精度问题，3090好像支持bf16精度的。顺便问问论文是什么卡跑出来的

Sep 12 '24 01:09 MonrenZheng

部分实验用3090，部分用A800

Sep 12 '24 01:09 rickyang1114

@rickyang1114 还请问一下为什么分支在gsm8k跑出来的结果和论文对不上，没有出现论文表现的遗忘

Sep 12 '24 06:09 MonrenZheng

可能是因为有一些环境方面的微小差异导致随机性未能完全被抹去= =

Sep 12 '24 07:09 rickyang1114

但是这里出现的openfunction效果增长了这么多着实有点奇怪wwww，对了还要问一下论文跑predict的时候用了do_sample吗？我在部分任务上跑了几次发现正确率是一模一样的

Sep 12 '24 07:09 MonrenZheng

humaneval 评估太慢了，用了do_sample False来加快，其他地方都是LLaMA-Factory predict 的默认配置，应该是有sample；在同一个环境下多次执行结果不变是正常的，因为LLaMA-Factory固定了随机种子。

结果未能完全复现可能是我当时做实验的环境和复现的环境不是完全一样，可能由requirements.txt中某些未指定版本的package带来，也可能由操作系统带来。。。具体是什么原因我也不清楚。。。

Sep 12 '24 07:09 rickyang1114

好的好的谢谢

Sep 12 '24 07:09 MonrenZheng

多卡运行 和 参数问题

多卡运行和参数问题