Li Yudong (李煜东) comments

Results 50 comments of


                                            Li Yudong (李煜东)

关于文本生成

可以 ________________________________ 发件人: yuzhang112 ***@***.***> 发送时间: Tuesday, November 2, 2021 9:59:25 PM 收件人: dbiir/UER-py ***@***.***> 抄送: Subscribed ***@***.***> 主题: [dbiir/UER-py] 关于文本生成 (Issue #219) 你好，我想用自己的语料，对预训练GPT2模型进行微调，然后进行文本生成任务，请问可以用增量预训练的命令进行微调吗？这是我现在使用的预训练命令： python3 pretrain.py --dataset_path dataset.pt --pretrained_model_path...

单卡预训练，单卡fineturn报错

您好，可否贴一下详细的报错信息？包括具体的代码行数，我们定位一下问题

no GPU usage and only CPU running when inference

working on it

关于预训练数据的来源

csl仓库已更新用于预训练的数据，和csl来源相同 ________________________________ 发件人: Willard Sheen ***@***.***> 发送时间: Tuesday, August 29, 2023 10:45:28 AM 收件人: ydli-ai/CSL ***@***.***> 抄送: Subscribed ***@***.***> 主题: [ydli-ai/CSL] 关于预训练数据的来源 (Issue #11) 预训练数据集数据似乎远多于发布的论文元数据集。在训练模型时为了去重，我简单校验了两个数据，似乎是不重叠的？方便简要说明下预训练数据的来源和内容吗 * 预训练的数据集 *...

似乎没有保存rotary_emb.inv_freq的权重

这个权重不需要存，是算出来的，可以参考huggingface的转换代码 ________________________________ 发件人: cristianoc20 ***@***.***> 发送时间: Thursday, May 4, 2023 8:33:22 PM 收件人: Tencent/TencentPretrain ***@***.***> 抄送: Subscribed ***@***.***> 主题: Re: [Tencent/TencentPretrain] 似乎没有保存rotary_emb.inv_freq的权重 (Issue #58) 不是大小是正常的 7B和33B的我都试过我发现腾讯的框架除了rotary_emb.inv_freq以外的权重都会保存看上去是因为这个inv_freq不是一个可学习的参数，可以自己计算，所以不存进去state_dict()（可能了省点模型保存的内存）我的解决方案是把这个inv_freq使用pytorch的register注册进模型的state_dict()里面，这样模型保存的参数里面就有state_dict()了。但这样会导致deepspeed使用zero_to_fp32时不把inv_freq写进bin文件（因为inv_freq没有可学习的参数，deepspeed会把他当作buff不存进去...

腾讯格式的权重转换成HF格式的转换脚本在哪里？

直接转到hf的脚本还在测试中，近期会上传 ________________________________ 发件人: 张夜白 ***@***.***> 发送时间: Tuesday, April 25, 2023 2:35:01 PM 收件人: ydli-ai/Chinese-ChatLLaMA ***@***.***> 抄送: Subscribed ***@***.***> 主题: Re: [ydli-ai/Chinese-ChatLLaMA] 腾讯格式的权重转换成HF格式的转换脚本在哪里？ (Issue #44) 1. Tencent -> Llama [image] [convert_tencentpretrain_to_llama.py](https://github.com/Tencent/TencentPretrain/blob/main/scripts/convert_tencentpretrain_to_llama.py)...

关于LLAMA预训练的疑问

是

33b模型权重少了五份

还在上传中 ________________________________ 发件人: genggui001 ***@***.***> 发送时间: Thursday, April 27, 2023 1:40:06 PM 收件人: ydli-ai/Chinese-ChatLLaMA ***@***.***> 抄送: Subscribed ***@***.***> 主题: [ydli-ai/Chinese-ChatLLaMA] 33b模型权重少了五份 (Issue #48) 33b模型权重少了五份 https://huggingface.co/P01son/LLaMA-zh-33b-hf/tree/main pytorch_model-00001-of-00007.bin pytorch_model-00007-of-00007.bin 只有这两个 ― Reply...

请问能公开论文中提到的CLS-T5模型吗，谢谢！

由于预训练框架版本更新，当时的CSL-T5权重已无法加载，建议直接用论文数据复现，训练开销约为4\*V100\*12h

运行脚本generate_chatllama.py后，tokenizer报错

> spm_model_file = '../ChatLLaMA-zh-7B/tokenizer.model'这个分词模型是不是损坏了？我测试了没有遇到这个问题，检查一下Sentencepiece版本？我这里是0.1.97