xianghuisun comments

Results 68 comments of


xianghuisun

哪个大佬救救孩子吧，这个问题好几天了，都没有解决

> 源码下载执行 sh training_scripts/single_node/run_LoRA.sh 报错如下： > > len(train_dataloader) = 334 len(train_dataset) = 1000 args.per_device_train_batch_size = 1 len(eval_dataloader) = 334 len(eval_dataset) = 1000 args.per_device_eval_batch_size = 1 [2023-04-23 11:34:49,179] [INFO] [logging.py:96:log_dist] [Rank...

哪个大佬救救孩子吧，这个问题好几天了，都没有解决

怎么直接训练本地模型文件？

> model_name_or_path不能只是个.bin文件。而且必须是pytorch_model.bin，还要给出预训练的config

BELLE-LLaMA-EXT-7B和BELLE-on-Open-Datasets的问题

> 您好：测试了一下这两个新的7B模型，发现各自存在一些问题： > > 1. BELLE-on-Open-Datasets 在中文指令下，会比较高频地乱入一些英文，同样的prompt下BELLE-7B-2M并没有这样的问题； > 2. BELLE-LLaMA-EXT-7B模型的指令模版似乎不是"Human: {instruction} \n\nAssistant: "， > `prompt = "Human: 写一首中文歌曲，赞美大自然 \n\nAssistant: " input_ids = tokenizer(prompt, return_tensors="pt").input_ids.to(device) generate_ids = model.generate(input_ids, max_new_tokens=300, do_sample...

在docker环境下，run_LoRa有问题，3张32G的V100也跑不起来，用之前的finetune就可以跑起来

> 我们模型用的BLoom-2M的，用的docker的环境，用的bash training_scripts/single_node/run_LoRA.sh output-lora 2；也换成3试了，也跑不起来。但是用以前版本的fineture用lora就可以跑起来，这是为啥是不是现在lora还不完善呢 > > 出现下面的错误： [2023-04-25 10:52:32,890] [INFO] [utils.py:793:see_memory_usage] CPU Virtual Memory: used = 47.61 GB, percent = 18.9% Traceback (most recent call last): File "main.py",...

brainstorming vs generation

> 对给定测试集合中的brainstorming和generation的划分比较迷惑，请问一下，在划分这两个类别时候的主要依据是什么？我们是按照openAI提出的标准进行分类的

failed to load tokenizer when test BELLE-LLaMA-EXT-13B with LlamaForCausalLM

> Could you please post a detailed error log

新的代码会导致OOM

> 我使用没整合huggingface Trainer的code，使用deepspeed zero3训练llama-30b的模型，max_length=512, bz=4, gradient_accumulation_steps=8, 在A100 80G的卡上可以正常训练。但是我发现用现在的新代码，同样llama-30b的模型，max_length=512，同样使用zero3,但是bz=1都会报错OOM。请问这主要是什么原因导致的？ > > ### 旧code训练的commad： > OUTPUT="./output/actor-models/llama-30b-blend-data-test" ZERO_STAGE=3 > > echo $OUTPUT echo $ZERO_STAGE data_output_path=./output/actor-models/data_files > > deepspeed main.py --sft_only_data_path xxx --model_name_or_path...

全量训练的时候修改什么参数，能降低显存的使用

> 4块A100，160G的显存，训练数据都是报显存不足，我怎么调整一下参数呢，或者修改哪里能让数据训练起来 > > # #FT > torchrun --nproc_per_node 4 /home/jovyan/vol-1/BELLE/train/src/train.py --model_name_or_path ${model_name_or_path} --llama --deepspeed configs/deepspeed_config_stage3.json --train_file ${train_file} --validation_file ${validation_file} --per_device_train_batch_size 1 --per_device_eval_batch_size 1 --gradient_accumulation_steps 1 --num_train_epochs 1 --model_max_length ${cutoff_len}...