Chinese-LLaMA-Alpaca 词表扩充 + 预训练代码

您好，请问后续会开源词表扩充和预训练代码嘛？

Apr 13 '23 11:04 ZeyuTeng96

同问，可以大体介绍下如何词表扩充么？

Apr 13 '23 13:04 rayguo01

可以先看这个 #128 如果还不清楚的话，请耐心等待一下，我们还会持续更新repo内容

Apr 13 '23 15:04 airaria

可以先看这个 #128 如果还不清楚的话，请耐心等待一下，我们还会持续更新repo内容

后续词表扩充和预训练代码都会更新嘛？因为词表扩充和llama模型的预训练都是我没有接触过的领域，想看看大佬们的代码学习学习

Apr 13 '23 15:04 ZeyuTeng96

预训练代码实在没什么改动，参考Transformers里的run_clm.py就行

Apr 13 '23 15:04 airaria

预训练代码实在没什么改动，参考Transformers里的run_clm.py就行

那是直接把hugging face的llama模型当作model_name_and_path参数传进run_clm.py就可以了嘛？

Apr 13 '23 15:04 ZeyuTeng96

预训练代码实在没什么改动，参考Transformers里的run_clm.py就行

但是如果扩充了词表，那么tokenizer的path肯定是要进行变化，意思是把.bin文件和新的tokenizer_config啥的文件放在一个文件夹下，用model_name_and_path参数传进run_clm.py?

Apr 13 '23 15:04 ZeyuTeng96

项目owner其实把该提供的信息都提供了，剩下的就是你自己需要做的工作了。

Apr 17 '23 09:04 ehion

@ZeyuTeng96 我也在纠结预训练

Apr 20 '23 08:04 world2025

预训练代码实在没什么改动，参考Transformers里的run_clm.py就行

但是如果扩充了词表，那么tokenizer的path肯定是要进行变化，意思是把.bin文件和新的tokenizer_config啥的文件放在一个文件夹下，用model_name_and_path参数传进run_clm.py?

我也想问这个问题

Apr 21 '23 08:04 12lxr

预训练代码实在没什么改动，参考Transformers里的run_clm.py就行

但是如果扩充了词表，那么tokenizer的path肯定是要进行变化，意思是把.bin文件和新的tokenizer_config啥的文件放在一个文件夹下，用model_name_and_path参数传进run_clm.py?

我也想问这个问题

是的

Apr 21 '23 09:04 airaria

预训练代码实在没什么改动，参考Transformers里的run_clm.py就行

但是如果扩充了词表，那么tokenizer的path肯定是要进行变化，意思是把.bin文件和新的tokenizer_config啥的文件放在一个文件夹下，用model_name_and_path参数传进run_clm.py?

我也想问这个问题

是的

大佬，这个问题呢？https://github.com/ymcui/Chinese-LLaMA-Alpaca/issues/183 @airaria

Apr 21 '23 09:04 ZeyuTeng96

Chinese-LLaMA-Alpaca Chinese-LLaMA-Alpaca copied to clipboard

词表扩充 + 预训练代码

Chinese-LLaMA-Alpaca
Chinese-LLaMA-Alpaca copied to clipboard