WangZeJun

Results 62 comments of WangZeJun

> 加载项目中的output/adgen-chatglm-6b-lora模型,运行cli_demo.py,结果中出现了大量重复语句,如图: ![image](https://user-images.githubusercontent.com/55744076/242223082-8e1175b6-74b4-404c-b7df-85744ad6fb5e.png) 偶尔是会有重复的生成,你多输入几次试试

> 还有一个问题,采用lora这种训练方式,理论上不会出现灾难性遗忘的现象,但是加载你给的训练模型,输入hello,输出是乱码 理论和实际可能是不一样的,lora 是额外训练了一个旁路的矩阵参数,你加载 lora 训练后的 checkpoint,模型输出可能是会受到微调数据集和训练参数的影响。

多卡训练一般指的是数据并行,每张卡上会有一个 batch 的数据在训练,所以每张卡上都会占用 16g 显存。假设有两个卡,多卡训练的好处是其真实的 batch_size 是单卡的2倍,所以总训练步数会减半,训练时间减少

> 问下,有没有更详细一点的结果对比实验? 本项目中没做生成效果评估,在 ChatGLM-6B 的 github 主页中有计算 BLEU 和 Rouge 指标的对比实验结果,可以参考: https://github.com/THUDM/ChatGLM-6B/tree/main/ptuning

> 这样就可以取代jieba了哈哈哈。应该就是在原来基础上加个动态规划。 苏神说的对,jieba分词的源码我还没研究过,还要再学习一下

> 现在你已经有了搜索功能了,搜索的结果就相当于一个(加权)有向无环图,我们就是要用动态规划在这个有向无环图上找一条最大路径。 嗯,我研究一下

使用的是 flash attention 2,我在 A5000 显卡上做的测试,flash attention 在 A 系列的显卡上应该都能用

thanks! I added it to the README.

This project does not provide training support. You can refer to the open-source project tokenizers from huggingface: https://github.com/huggingface/tokenizers > Excellent works! > > I wonder whether this package provide the...

I have verified the tokenize result on 180000 Chinese sentences. It is exactly the same as BertTokenizer.