Chinese-LLaMA-Alpaca
Chinese-LLaMA-Alpaca copied to clipboard
词表扩充 + 预训练代码
您好,请问后续会开源词表扩充和预训练代码嘛?
同问,可以大体介绍下如何词表扩充么?
可以先看这个 #128 如果还不清楚的话,请耐心等待一下,我们还会持续更新repo内容
可以先看这个 #128 如果还不清楚的话,请耐心等待一下,我们还会持续更新repo内容
后续词表扩充和预训练代码都会更新嘛?因为词表扩充和llama模型的预训练都是我没有接触过的领域,想看看大佬们的代码学习学习
预训练代码实在没什么改动,参考Transformers里的run_clm.py就行
预训练代码实在没什么改动,参考Transformers里的run_clm.py就行
那是直接把hugging face的llama模型当作model_name_and_path参数传进run_clm.py就可以了嘛?
预训练代码实在没什么改动,参考Transformers里的run_clm.py就行
但是如果扩充了词表,那么tokenizer的path肯定是要进行变化,意思是把.bin文件和新的tokenizer_config啥的文件放在一个文件夹下,用model_name_and_path参数传进run_clm.py?
项目owner其实把该提供的信息都提供了,剩下的就是你自己需要做的工作了。
@ZeyuTeng96 我也在纠结预训练
预训练代码实在没什么改动,参考Transformers里的run_clm.py就行
但是如果扩充了词表,那么tokenizer的path肯定是要进行变化,意思是把.bin文件和新的tokenizer_config啥的文件放在一个文件夹下,用model_name_and_path参数传进run_clm.py?
我也想问这个问题
预训练代码实在没什么改动,参考Transformers里的run_clm.py就行
但是如果扩充了词表,那么tokenizer的path肯定是要进行变化,意思是把.bin文件和新的tokenizer_config啥的文件放在一个文件夹下,用model_name_and_path参数传进run_clm.py?
我也想问这个问题
是的
预训练代码实在没什么改动,参考Transformers里的run_clm.py就行
但是如果扩充了词表,那么tokenizer的path肯定是要进行变化,意思是把.bin文件和新的tokenizer_config啥的文件放在一个文件夹下,用model_name_and_path参数传进run_clm.py?
我也想问这个问题
是的
大佬,这个问题呢?https://github.com/ymcui/Chinese-LLaMA-Alpaca/issues/183 @airaria