CPM-Bee
CPM-Bee copied to clipboard
百亿参数的中英文双语基座大模型
示例代码是将模型加载在单张显卡上推理的,如何将模型权重分配在多张卡上,有像hugging face那样简单的device_map='auto'的方法吗?
目前采取的方法是对符号进行替换,但如果是重要文本特征不能进行替换,训练时该如何处理呢
我尝试用了{"input": "问题:xxx答案:", "": "yyy"} 做预训练,但是loss基本上为nan。但是对于微调是正确的,请教正确的预训练格式是什么
在api中,问答使用的是question,生成使用的是prompt,区别在哪里呢?
do you have method besides 'pip install bmtrain'? or give a example for install sucessfully, with what kinds of packages should be installed in advanced?
torch 1.13 cuda 11.7 推理代码能正常运行 训练开4卡4090,加载模型时卡住,cpu占用100%,显卡占用100% torchrun --nnodes=1 --nproc_per_node=4 --rdzv_id=1 --rdzv_backend=c10d --rdzv_endpoint=localhost:12345 finetune_cpm_bee.py --use-delta --model-config config/cpm-bee-10b.json --dataset datasets/eprstmt/binary/dev --eval_dataset datasets/eprstmt/binary/eval_dev --epoch 100 --batch-size 4 --train-iters 100 --save-name cpm_bee_finetune --max-length 2048...
多轮对话格式如何定义? 使用一下这种格式是否可行? 