Jeffrey G.
Jeffrey G.
您好,看起来1b模型的文件与1b模型config应该是可以正常启动的。 您可以检查一下config文件中的`mask_modules`字段,开头应该是"[[false, false], [true, false]..."
每个样本的输入是不一样的 ext_table是对词表的动态扩展,用于处理, , ... , , ...这样的可变特殊token。 请问您有使用huggingface中的tokenizer.prepare_for_finetune方法吗? 它可以帮助转换模型训练所需要的数据格式
您需要在执行preprocess_dataset.py的时候,在build_dataset和shuffle_dataset中将block_size设为一个较小的值,或增大您的数据集 transforms用于对数据变换,{"document": "$source"}表示把原始数据中的"source"字段替换到"document"字段中
您好,看起来这个参数大概需要18G显存,3080Ti应该是不够的,您可以试一下1b模型 另外,max_length=64不报错是因为训练数据长于64,dataloader始终轮空
您好,这是由于此前loss_func算子仅支持半精度,现已修复
您可以将每种任务设计一种数据格式,然后把所有任务的数据混合起来微调即可
模型会先加载到内存上,然后放到GPU,所以您需要确保有至少20G内存
您的内存配置是多少呢,加载5B模型应该要求有至少10G内存
For example, you put the cpm-bee-10b model in path `/root/user/cpm_bee_10b/pytorch_model.bin`, the code will be `model.load_state_dict(torch.load("/root/user/cpm_bee_10b/pytorch_model.bin"))`
raw_data是自由的,reformat_data的功能是将任意格式的raw_data转换为CPM-Bee格式的数据,这个功能需要您根据raw_data去实现,可以参考[tutorials](https://github.com/OpenBMB/CPM-Bee/tree/main/tutorials/basic_task_finetune),里面的data_reformat.py实际上就是这里的reformat_data的实现