hingkan comments

Results 6 comments of


                                            hingkan

[Question] 单机单卡训练，报错，无法初始化梯度。

> 同问，遇到了相同的问题。另一个问题时requirement 中版本有冲突 The conflict is caused by: The user requested torch==2.0.0 deepspeed 0.9.2 depends on torch xformers 0.0.20 depends on torch==2.0.1 我在其他issue里也看到了，安装的也是torch==2.0.1，但仍然出现上面的问题。请问大家是如何解决的呢？

[Question] a100 80g单卡训练还 out of memory

> [2023-06-26 17:04:13,047] [INFO] [logging.py:96:log_dist] [Rank 0] Using DeepSpeed Optimizer param name adamw as basic optimizer [2023-06-26 17:04:13,057] [INFO] [logging.py:96:log_dist] [Rank 0] DeepSpeed Basic Optimizer = DeepSpeedCPUAdam [2023-06-26 17:04:13,057] [INFO]...

使用SFT后的FP32模型进行生成，报错RuntimeError: where expected condition to be a boolean tensor, but got a tensor with dtype Half

您好，我这里也出现了同样的问题，请问您解决了嘛。如解决了，能给个提示吗，谢谢

使用SFT后的FP32模型进行生成，报错RuntimeError: where expected condition to be a boolean tensor, but got a tensor with dtype Half

我比较简陋的在模型加载时指定的torch_dtype删除，如： raw_model = MossForCausalLM._from_config(config) model = load_checkpoint_and_dispatch( raw_model, model_path, device_map="auto", no_split_module_classes=["MossBlock"]) 如你们找到好的办法，希望告诉我，谢谢。

[Question] 训练垂直领域的模型，增量预训练的token数需要达到多少才能有比较好的效果？

我想请教下大佬，在trian.py中只输入了tokenizer_path，没有给input_model_path，如何做到增量预训练的呀

[Question] 训练垂直领域的模型，增量预训练的token数需要达到多少才能有比较好的效果？

> 我在md文件中看到“下载 tokenizer 模型文件 tokenizer.model，放置在项目目录下。”，就以为是基于tokenizer.model对模型进行重训练。当时就想着模型有个默认路径或者在调用modeling_baichuan.py时下载模型，如模型和分词器默认在一个文件夹加载就明白了。谢谢解惑~ 我想顺便请教下，预训练数据是哪种格式呢：格式一： “”“ doc1 doc2 doc3 ... “”“ 格式二： ”“” {"text": "doc1"} {"text": "doc2"} {"text": "doc3"} ... “”“