Li Yudong (李煜东)
Li Yudong (李煜东)
可以 ________________________________ 发件人: yuzhang112 ***@***.***> 发送时间: Tuesday, November 2, 2021 9:59:25 PM 收件人: dbiir/UER-py ***@***.***> 抄送: Subscribed ***@***.***> 主题: [dbiir/UER-py] 关于文本生成 (Issue #219) 你好,我想用自己的语料,对预训练GPT2模型进行微调,然后进行文本生成任务,请问可以用增量预训练的命令进行微调吗? 这是我现在使用的预训练命令: python3 pretrain.py --dataset_path dataset.pt --pretrained_model_path...
您好,可否贴一下详细的报错信息? 包括具体的代码行数,我们定位一下问题
working on it
csl仓库已更新用于预训练的数据,和csl来源相同 ________________________________ 发件人: Willard Sheen ***@***.***> 发送时间: Tuesday, August 29, 2023 10:45:28 AM 收件人: ydli-ai/CSL ***@***.***> 抄送: Subscribed ***@***.***> 主题: [ydli-ai/CSL] 关于预训练数据的来源 (Issue #11) 预训练数据集数据似乎远多于发布的论文元数据集。 在训练模型时为了去重,我简单校验了两个数据,似乎是不重叠的? 方便简要说明下预训练数据的来源和内容吗 * 预训练的数据集 *...
这个权重不需要存,是算出来的,可以参考huggingface的转换代码 ________________________________ 发件人: cristianoc20 ***@***.***> 发送时间: Thursday, May 4, 2023 8:33:22 PM 收件人: Tencent/TencentPretrain ***@***.***> 抄送: Subscribed ***@***.***> 主题: Re: [Tencent/TencentPretrain] 似乎没有保存rotary_emb.inv_freq的权重 (Issue #58) 不是 大小是正常的 7B和33B的我都试过 我发现腾讯的框架除了rotary_emb.inv_freq以外的权重都会保存 看上去是因为这个inv_freq不是一个可学习的参数,可以自己计算,所以不存进去state_dict()(可能了省点模型保存的内存) 我的解决方案是把这个inv_freq使用pytorch的register注册进模型的state_dict()里面,这样模型保存的参数里面就有state_dict()了。但这样会导致deepspeed使用zero_to_fp32时不把inv_freq写进bin文件(因为inv_freq没有可学习的参数,deepspeed会把他当作buff不存进去...
直接转到hf的脚本还在测试中,近期会上传 ________________________________ 发件人: 张夜白 ***@***.***> 发送时间: Tuesday, April 25, 2023 2:35:01 PM 收件人: ydli-ai/Chinese-ChatLLaMA ***@***.***> 抄送: Subscribed ***@***.***> 主题: Re: [ydli-ai/Chinese-ChatLLaMA] 腾讯格式的权重转换成HF格式的转换脚本在哪里? (Issue #44) 1. Tencent -> Llama [image] [convert_tencentpretrain_to_llama.py](https://github.com/Tencent/TencentPretrain/blob/main/scripts/convert_tencentpretrain_to_llama.py)...
还在上传中 ________________________________ 发件人: genggui001 ***@***.***> 发送时间: Thursday, April 27, 2023 1:40:06 PM 收件人: ydli-ai/Chinese-ChatLLaMA ***@***.***> 抄送: Subscribed ***@***.***> 主题: [ydli-ai/Chinese-ChatLLaMA] 33b模型权重少了五份 (Issue #48) 33b模型权重少了五份 https://huggingface.co/P01son/LLaMA-zh-33b-hf/tree/main pytorch_model-00001-of-00007.bin pytorch_model-00007-of-00007.bin 只有这两个 ― Reply...
由于预训练框架版本更新,当时的CSL-T5权重已无法加载,建议直接用论文数据复现,训练开销约为4\*V100\*12h
> spm_model_file = '../ChatLLaMA-zh-7B/tokenizer.model'这个分词模型是不是损坏了? 我测试了没有遇到这个问题,检查一下Sentencepiece版本? 我这里是0.1.97