Cheung
Cheung
请问:如果使用其他数据集,除了数据处理的代码,还要修改别的部分吗
关于accelerate的使用有一些困惑: 1、代码中没有accelerate相关方法的调用,例如accelerator.prepare()等,为什么使用accelerate launch便可以直接进行分布式训练呢?2、deepspeed方面,accelerate_config.yaml和DeepSpeedPlugin的作用一致吗? 望予以解答,不胜感激
作者您好,最近在阅读您的代码,发现trigger_seq_id和args_seq_id并未考虑[CLS]和[SEP],这样不会造成输入和标签不匹配的问题吗?
作者您好, 最近在跑流水线并行的代码,并尝试在qwen上复现,但发现一个问题,pipemodel是基于basemodel来加载的,以7B模型为例,相当于内存中最多的时候需要加载2 * 14g,是这样吗?(虽然后续使用了del model可以释放出内存 感觉想在8 * 32G v100上跑qwen 32B的希望破灭了....
你好,在模型评估的代码里遇到以下问题: 1、执行流程是否为 run_evaluation_gpt35.sh -> run_stat_evaluetion.sh,并保证”eva(score/oder)“一致 2、缺少 roleplay-questions-zh.jsonl 文件 3、如何评估自己的模型 还望百忙之中予以答复,不胜感激
作者您好, 最近在跑流水线并行的代码,并尝试在qwen上复现,但发现一个问题,pipemodel需要基于basemodel加载,以7B模型为例,相当于内存中最多的时候需要加载2 * 14g,是这样吗? 感觉想在8 * 32G v100上跑qwen 32B的希望破灭了....
**系统**: macOS 14.4.1 **python版本**: 3.9.16 运行代码: `from legent import Environment, ResetInfo env = Environment(env_path="auto") scene = { "instances": [ { "prefab": "LowPolyInterior_Floor_01", "position": [0, 0, 0], "rotation": [0, 0, 0],...