多卡运行 和 参数问题
为什么项目使用多 GPU 运行 导致推理结果乱码,得到的评估结果很差呢 ?请问是什么原因导致的呢 另外一个问题是,论文说的是实验运用llama2的默认参数,比如温度等。但是实际推理时好像用的是llama-factory的参数,是0.95。而模型的默认温度是0.6。
应该就是llama-factory的默认参数,我没有调这些
收到
[WARNING|logging.py:328] 2024-09-03 16:13:36,533 >> We detected that you are passing past_key_values as a tuple and this is deprecated and will be removed in v4.43. Please use an appropriate Cache class (https://huggingface.co/docs/transformers/v4.41.3/en/internal/generation_utils#transformers.Cache)
最后就是还想问问这个warning会有影响吗?
我觉得没有影响。我在实验的时候没管warnings
okok感谢了
我跑的gsm8k_test结果如下:
好像还是跟结果有点差距了 两行 上面一行是论文的结果 下面一行是我跑的
还请指教一下
可能是环境原因吧...
哦噢好的感谢
okok感谢了 我跑的gsm8k_test结果如下:
好像还是跟结果有点差距了 两行 上面一行是论文的结果 下面一行是我跑的 还请指教一下
@zmr66z6xx6 能否详细说一下这个具体的setup呀?是用的本repo提供的command跑的evaluation吗,还是改动了什么参数?是否检查过模型self-disilltation 生成的数据呢?
@zmr66z6xx6 另外,这个出问题是在单卡环境下,还是多卡环境下呢?
okok感谢了 我跑的gsm8k_test结果如下:
好像还是跟结果有点差距了 两行 上面一行是论文的结果 下面一行是我跑的 还请指教一下
@zmr66z6xx6 能否详细说一下这个具体的setup呀?是用的本repo提供的command跑的evaluation吗,还是改动了什么参数?是否检查过模型self-disilltation 生成的数据呢?
main分支跑的哟 参数没改 就用原来的
@zmr66z6xx6 另外,这个出问题是在单卡环境下,还是多卡环境下呢?
多卡 乱码结果很差。上面发的是单卡跑出来的
@zmr66z6xx6 可以试试reproduce branch的code,不确定是不是因为Llama-Factory最新的codebase引起的问题
@SivilTaram 收到谢谢
@SivilTaram 请问一下这个warning有影响吗
@zmr66z6xx6 没有影响的,这个是说这个API马上会弃用
@zmr66z6xx6 没有影响的,这个是说这个API马上会弃用
@SivilTaram 好的 谢谢 目前用 分支部分 跑出了seed结果 openfunctions的结果差的有点多了 只有10.71%
@zmr66z6xx6 是指seed model自己inference的结果在openfunctions只有10.71%,是吗?
@SivilTaram 对的 之前main分支也是openfunctions上的test不太理想
@zmr66z6xx6 因为seed model本身和方法没有任何关系,就是llama-2-chat,请问你是用什么精度做的inference,什么显卡呢?以及是只有openfunctions上的结果不理想吗还是?
@SivilTaram 我参数啥的都没改 全是项目里头指定的 卡是RTX 3090 对的目前只是openfunctions test差得多一些。
@zmr66z6xx6 好的,谢谢反馈!可以先在reproduce下试试其他的dataset,比如GSM8K是否能复现sdft v.s. sft 的结果吗?感觉听起来像是硬件支持精度的问题😂 但我还不太确定
@SivilTaram 好的收到,感谢
@SivilTaram gsm8k数据集训练的结果:感觉还是openfunction上的出入有点大
上述SDFT的结果和论文对上了,但是前两项差了。对了之前说的精度问题,3090好像支持bf16精度的。顺便问问论文是什么卡跑出来的
部分实验用3090,部分用A800
@rickyang1114 还请问一下为什么分支在gsm8k跑出来的结果和论文对不上,没有出现论文表现的遗忘
可能是因为有一些环境方面的微小差异导致随机性未能完全被抹去= =
但是这里出现的openfunction效果增长了这么多着实有点奇怪wwww,对了还要问一下论文跑predict的时候用了do_sample吗?我在部分任务上跑了几次发现正确率是一模一样的
humaneval 评估太慢了,用了do_sample False来加快,其他地方都是LLaMA-Factory predict 的默认配置,应该是有sample;在同一个环境下多次执行结果不变是正常的,因为LLaMA-Factory固定了随机种子。
结果未能完全复现可能是我当时做实验的环境和复现的环境不是完全一样,可能由requirements.txt中某些未指定版本的package带来,也可能由操作系统带来。。。具体是什么原因我也不清楚。。。
好的好的谢谢
好像还是跟结果有点差距了 两行 上面一行是论文的结果 下面一行是我跑的 还请指教一下