Danny Wong
Danny Wong
同样出现这个问题,超参vocab_size设置50000,同样也会出现50001、50002等等id找不到
感谢作者的工作。但是我有个疑问,llama我也训练过很多次了,没有扩充词表,我也是使用的lora+8bit+1024token,数据集用的是Alpaca_50k和Belle抽取的50k合并之后的,但是训练出来的中文能力都特别差。比如“介绍一下中国的首都”,回答的不太好,有时还会一直重复。请问你的也会出现这种问题吗?还是有其它一些技巧来处理?
> 感谢作者的工作。但是我有个疑问,llama我也训练过很多次了,没有扩充词表,我也是使用的lora+8bit+1024token,数据集用的是Alpaca_50k和Belle抽取的50k合并之后的,但是训练出来的中文能力都特别差。比如“介绍一下中国的首都”,回答的不太好,有时还会一直重复。请问你的也会出现这种问题吗?还是有其它一些技巧来处理? 同时,我发现伯克利的vicuna的中文能力还不错,他们好像也只使用了少量中文数据集,没有刻意加入中文。唯一的区别是他们没用lora,我在想会不会lora就存在这种缺陷
推理代码我是这样写的: ``` model.eval() with torch.no_grad(): preds = model.generate( input_ids=input_ids, max_new_tokens=256, do_sample=True, temperature=0.7, top_p=0.95, top_k=40 ) ``` 应该是用了beam_search吧
> 你可以参考我们generate里面设置试试 好的,我试试