Chinese-LLaMA-Alpaca icon indicating copy to clipboard operation
Chinese-LLaMA-Alpaca copied to clipboard

词表扩充 + 预训练代码

Open ZeyuTeng96 opened this issue 1 year ago • 7 comments

您好,请问后续会开源词表扩充和预训练代码嘛?

ZeyuTeng96 avatar Apr 13 '23 11:04 ZeyuTeng96

同问,可以大体介绍下如何词表扩充么?

rayguo01 avatar Apr 13 '23 13:04 rayguo01

可以先看这个 #128 如果还不清楚的话,请耐心等待一下,我们还会持续更新repo内容

airaria avatar Apr 13 '23 15:04 airaria

可以先看这个 #128 如果还不清楚的话,请耐心等待一下,我们还会持续更新repo内容

后续词表扩充和预训练代码都会更新嘛?因为词表扩充和llama模型的预训练都是我没有接触过的领域,想看看大佬们的代码学习学习

ZeyuTeng96 avatar Apr 13 '23 15:04 ZeyuTeng96

预训练代码实在没什么改动,参考Transformers里的run_clm.py就行

airaria avatar Apr 13 '23 15:04 airaria

预训练代码实在没什么改动,参考Transformers里的run_clm.py就行

那是直接把hugging face的llama模型当作model_name_and_path参数传进run_clm.py就可以了嘛?

ZeyuTeng96 avatar Apr 13 '23 15:04 ZeyuTeng96

预训练代码实在没什么改动,参考Transformers里的run_clm.py就行

但是如果扩充了词表,那么tokenizer的path肯定是要进行变化,意思是把.bin文件和新的tokenizer_config啥的文件放在一个文件夹下,用model_name_and_path参数传进run_clm.py?

ZeyuTeng96 avatar Apr 13 '23 15:04 ZeyuTeng96

项目owner其实把该提供的信息都提供了,剩下的就是你自己需要做的工作了。

ehion avatar Apr 17 '23 09:04 ehion

@ZeyuTeng96 我也在纠结预训练

world2025 avatar Apr 20 '23 08:04 world2025

预训练代码实在没什么改动,参考Transformers里的run_clm.py就行

但是如果扩充了词表,那么tokenizer的path肯定是要进行变化,意思是把.bin文件和新的tokenizer_config啥的文件放在一个文件夹下,用model_name_and_path参数传进run_clm.py?

我也想问这个问题

12lxr avatar Apr 21 '23 08:04 12lxr

预训练代码实在没什么改动,参考Transformers里的run_clm.py就行

但是如果扩充了词表,那么tokenizer的path肯定是要进行变化,意思是把.bin文件和新的tokenizer_config啥的文件放在一个文件夹下,用model_name_and_path参数传进run_clm.py?

我也想问这个问题

是的

airaria avatar Apr 21 '23 09:04 airaria

预训练代码实在没什么改动,参考Transformers里的run_clm.py就行

但是如果扩充了词表,那么tokenizer的path肯定是要进行变化,意思是把.bin文件和新的tokenizer_config啥的文件放在一个文件夹下,用model_name_and_path参数传进run_clm.py?

我也想问这个问题

是的

大佬,这个问题呢?https://github.com/ymcui/Chinese-LLaMA-Alpaca/issues/183 @airaria

ZeyuTeng96 avatar Apr 21 '23 09:04 ZeyuTeng96