Cheung

Results 6 issues of Cheung

请问:如果使用其他数据集,除了数据处理的代码,还要修改别的部分吗

关于accelerate的使用有一些困惑: 1、代码中没有accelerate相关方法的调用,例如accelerator.prepare()等,为什么使用accelerate launch便可以直接进行分布式训练呢?2、deepspeed方面,accelerate_config.yaml和DeepSpeedPlugin的作用一致吗? 望予以解答,不胜感激

pending

作者您好,最近在阅读您的代码,发现trigger_seq_id和args_seq_id并未考虑[CLS]和[SEP],这样不会造成输入和标签不匹配的问题吗?

作者您好, 最近在跑流水线并行的代码,并尝试在qwen上复现,但发现一个问题,pipemodel是基于basemodel来加载的,以7B模型为例,相当于内存中最多的时候需要加载2 * 14g,是这样吗?(虽然后续使用了del model可以释放出内存 感觉想在8 * 32G v100上跑qwen 32B的希望破灭了....

你好,在模型评估的代码里遇到以下问题: 1、执行流程是否为 run_evaluation_gpt35.sh -> run_stat_evaluetion.sh,并保证”eva(score/oder)“一致 2、缺少 roleplay-questions-zh.jsonl 文件 3、如何评估自己的模型 还望百忙之中予以答复,不胜感激

作者您好, 最近在跑流水线并行的代码,并尝试在qwen上复现,但发现一个问题,pipemodel需要基于basemodel加载,以7B模型为例,相当于内存中最多的时候需要加载2 * 14g,是这样吗? 感觉想在8 * 32G v100上跑qwen 32B的希望破灭了....