xianghuisun

Results 68 comments of xianghuisun

> 源码下载执行 sh training_scripts/single_node/run_LoRA.sh 报错如下: > > len(train_dataloader) = 334 len(train_dataset) = 1000 args.per_device_train_batch_size = 1 len(eval_dataloader) = 334 len(eval_dataset) = 1000 args.per_device_eval_batch_size = 1 [2023-04-23 11:34:49,179] [INFO] [logging.py:96:log_dist] [Rank...

> 源码下载执行 sh training_scripts/single_node/run_LoRA.sh 报错如下: > > len(train_dataloader) = 334 len(train_dataset) = 1000 args.per_device_train_batch_size = 1 len(eval_dataloader) = 334 len(eval_dataset) = 1000 args.per_device_eval_batch_size = 1 [2023-04-23 11:34:49,179] [INFO] [logging.py:96:log_dist] [Rank...

> 源码下载执行 sh training_scripts/single_node/run_LoRA.sh 报错如下: > > len(train_dataloader) = 334 len(train_dataset) = 1000 args.per_device_train_batch_size = 1 len(eval_dataloader) = 334 len(eval_dataset) = 1000 args.per_device_eval_batch_size = 1 [2023-04-23 11:34:49,179] [INFO] [logging.py:96:log_dist] [Rank...

> model_name_or_path不能只是个.bin文件。而且必须是pytorch_model.bin,还要给出预训练的config

> 您好: 测试了一下这两个新的7B模型,发现各自存在一些问题: > > 1. BELLE-on-Open-Datasets 在中文指令下,会比较高频地乱入一些英文,同样的prompt下BELLE-7B-2M并没有这样的问题; > 2. BELLE-LLaMA-EXT-7B模型的指令模版似乎不是"Human: {instruction} \n\nAssistant: ", > `prompt = "Human: 写一首中文歌曲,赞美大自然 \n\nAssistant: " input_ids = tokenizer(prompt, return_tensors="pt").input_ids.to(device) generate_ids = model.generate(input_ids, max_new_tokens=300, do_sample...

> 我们模型用的BLoom-2M的,用的docker的环境,用的bash training_scripts/single_node/run_LoRA.sh output-lora 2; 也换成3试了,也跑不起来。但是用以前版本的fineture用lora就可以跑起来,这是为啥是不是现在lora还不完善呢 > > 出现下面的错误: [2023-04-25 10:52:32,890] [INFO] [utils.py:793:see_memory_usage] CPU Virtual Memory: used = 47.61 GB, percent = 18.9% Traceback (most recent call last): File "main.py",...

> 对给定测试集合中的brainstorming和generation的划分比较迷惑,请问一下,在划分这两个类别时候的主要依据是什么? 我们是按照openAI提出的标准进行分类的

> 我使用没整合huggingface Trainer的code,使用deepspeed zero3训练llama-30b的模型,max_length=512, bz=4, gradient_accumulation_steps=8, 在A100 80G的卡上可以正常训练。但是我发现用现在的新代码,同样llama-30b的模型,max_length=512,同样使用zero3,但是bz=1都会报错OOM。 请问这主要是什么原因导致的? > > ### 旧code训练的commad: > OUTPUT="./output/actor-models/llama-30b-blend-data-test" ZERO_STAGE=3 > > echo $OUTPUT echo $ZERO_STAGE data_output_path=./output/actor-models/data_files > > deepspeed main.py --sft_only_data_path xxx --model_name_or_path...

> 4块A100,160G的显存,训练数据都是报显存不足,我怎么调整一下参数呢,或者修改哪里能让数据训练起来 > > # #FT > torchrun --nproc_per_node 4 /home/jovyan/vol-1/BELLE/train/src/train.py --model_name_or_path ${model_name_or_path} --llama --deepspeed configs/deepspeed_config_stage3.json --train_file ${train_file} --validation_file ${validation_file} --per_device_train_batch_size 1 --per_device_eval_batch_size 1 --gradient_accumulation_steps 1 --num_train_epochs 1 --model_max_length ${cutoff_len}...