Chinese-LLaMA-Alpaca
Chinese-LLaMA-Alpaca copied to clipboard
关于合并中文token跟原始LLama 的token
我使用 LLamaTokenzier 的add_token 方法来扩张词汇表,跟你代码中使用 sentenpiece来训练有什么不同么?
这个对训练embedding会有影响么?
我们之前尝试用add_token方法来扩张词汇表发现会切分出许多多余的空格; 如果你没有出现此问题,可以尝试继续用add_token方法扩张词汇表,理论上对训练embedding没有影响
我们之前尝试用add_token方法来扩张词汇表发现会切分出许多多余的空格; 如果你没有出现此问题,可以尝试继续用add_token方法扩张词汇表,理论上对训练embedding没有影响
确实啊,在decode的时候句子中会出现空格