Chinese-LLaMA-Alpaca icon indicating copy to clipboard operation
Chinese-LLaMA-Alpaca copied to clipboard

关于合并中文token跟原始LLama 的token

Open moseshu opened this issue 3 years ago • 1 comments

我使用 LLamaTokenzier 的add_token 方法来扩张词汇表,跟你代码中使用 sentenpiece来训练有什么不同么?

这个对训练embedding会有影响么?

moseshu avatar May 01 '23 09:05 moseshu

我们之前尝试用add_token方法来扩张词汇表发现会切分出许多多余的空格; 如果你没有出现此问题,可以尝试继续用add_token方法扩张词汇表,理论上对训练embedding没有影响

airaria avatar May 01 '23 15:05 airaria

我们之前尝试用add_token方法来扩张词汇表发现会切分出许多多余的空格; 如果你没有出现此问题,可以尝试继续用add_token方法扩张词汇表,理论上对训练embedding没有影响

确实啊,在decode的时候句子中会出现空格

moseshu avatar May 03 '23 13:05 moseshu