cywjava

Results 91 comments of cywjava

这个问题一般都是代码造成的。。 你可以先更新最新的模型文件 ,再微调看看。如果还是这样,就是你的代码有问题了

先加载原来的,再使用lora加载adapter_model.bin

> 如果训练集里的prompt够长够独特,应该能替换的。如果是通用领域,感觉万步是远远不够的。 这得多少步啊。。

> 你这新知识进行多轮对话的时候还能记住吗? 多轮对话后,会胡说了。。因为他原来里面就一些相似的内容 。

估计 不会开源的, 这些数据一般的公司是根本不可能有的。

解决24G 显存不足的问题,样例代码: ~~~ import os from transformers import AutoTokenizer, AutoModelForCausalLM, AutoConfig import torch PRE_TRAINED_MODEL_PATH = "../model/" # 程序入口 def main(): os.environ["CUDA_VISIBLE_DEVICES"] = "2" tokenizer = AutoTokenizer.from_pretrained(PRE_TRAINED_MODEL_PATH, trust_remote_code=True) tokenizer.pad_token_id = 0...

构造成 问题,回答内容[CLS],格式。送进去训练。

> 方便问下你用的是哪个分支,以及 train.json 中的数据格式吗 @wujohns 就是用的默认的那个old 分支

你这个是问答模型。