acbogeh

Results 3 comments of acbogeh

> reward model 用于推理是没有意义的,因为它只会输出一个分数。RLHF 后的模型可以直接指定 PPO 的输出文件夹为 checkpoint_dir 来加载。 ---------------------------------./output_rlhf/是我rlhf的输出路径,作为checkpoint加载后模型能力崩塌了-------------------- (baichuan) [root@LLM01GPU LLaMA-Efficient-Tuning]# python src/cli_demo.py \ --model_name_or_path /baichuan-7B/model --checkpoint_dir ./output_rlhf/ adapter_config.json checkpoint-1000/ checkpoint-11000/ checkpoint-2000/ checkpoint-4000/ checkpoint-6000/ checkpoint-8000/ finetuning_args.json trainer_log.jsonl training_args.bin...

> 对于图像生成,需要关键词前缀来触发,对应配置 image_create_prefix > > 你直接和它说 "画一个xxx" 试试 可以看我的日志,首字的画貌似都被自动截掉了

> 试试这个,TORCH_CUDA_ARCH_LIST="7.5" pip install bmtrain==0.2.1 raise RuntimeError(CUDA_MISMATCH_MESSAGE.format(cuda_str_version, torch.version.cuda)) RuntimeError: The detected CUDA version (12.1) mismatches the version that was used to compile PyTorch (11.7). Please make sure to use the...