Tungsong
Tungsong
> UPDATED: > > Vim your python path /site-packages/peft/utils/save_and_load.py, and comment# the "to_return = {k: v for k, v in to_return.items() if (("lora_" in k and adapter_name in k) or...
> > > UPDATED: > > > Vim your python path /site-packages/peft/utils/save_and_load.py, and comment# the "to_return = {k: v for k, v in to_return.items() if (("lora_" in k and adapter_name...
@nkjulia 您好 我用5834条中文数据去微调decapoda-research/llama-7b-hf,跑了10个epoch,回复中有很多的重复,比如: 问:怎么在很多交换机中查找一个MAC地址的摄像头 答:您好,以下参考1、查询MAC地址的摄像头的命令:displaymac-address查询MAC地址的摄像头的命令:displaymac-address查询MAC地址的摄像头的命令:displaymac-address查询MAC地址的摄像头的命令:displaymac-address查询MAC地址的摄像头的命令:displaymac-address查询 和原答案差距也比较大,您觉得是什么原因呢 训练过程: (base) root@uni-dzkf-gpu:/usr/local/dbbd/alpaca-lora# conda activate llama (llama) root@uni-dzkf-gpu:/usr/local/dbbd/alpaca-lora# python finetune.py \ > --base_model '/usr/local/dbbd/model/llama-7b-hf' \ > --data_path '/usr/local/dbbd/data/kuai_clean_5489.json' \ > --output_dir './lora-alpaca' \ >...
> micro_batch_size 太大学习不细,数据要做cosine去相似度,不然陷入循环问什么都答一样。最关键loss不够,一般0.5以下也达到可以业界稍微能使用的程度,0.7-0.8部分答案稍微合理。目前你train稳定下降,val缓慢,很可能是数据有问题。 预模型 7B已经很小了,你用lora练复杂问题,难度更高。可以找点简单的中文数据集练基本问题,再上专业问答。但你目前题目的难度用30B训练是可行的。 好的,谢谢你的回复,我按你的建议去调整再试一下
@lywinged 是的,我们目前已经有一个基于bert、ERNIE的对话问答系统,但仅限于简单的提问,对于比较复杂的问题小模型处理不了,所以在看能否通过LLM去学习新知识的方式来给解决复杂问题提供一些参考。我的初衷是让模型去学习文档中的知识之后对于用户的提问能给出参考性的回答,对此您还有什么建议吗
> > @lywinged 是的,我们目前已经有一个基于bert、ERNIE的对话问答系统,但仅限于简单的提问,对于比较复杂的问题小模型处理不了,所以在看能否通过LLM去学习新知识的方式来给解决复杂问题提供一些参考。我的初衷是让模型去学习文档中的知识之后对于用户的提问能给出参考性的回答,对此您还有什么建议吗 > > 要看企业规模,如果非要上50B以下LLM, 最新的办法也是LLM+LangChain+Pinecone, LLM只需要理解用户大概要问什么,接着调用专业资料再回答。 > > 原理是LLM有私人数据库,接口得到问题后,相似度匹配从数据库吸取上下文再进入input,就可以回答看似简单一句话但很复杂的问题, 在回答的时候,答案也和数据库相似度匹配,再把对应的出处给用户。 非常感谢您的建议
> 不太清楚你自己的数据格式是什么。alpaca是需要用特定的输入模板的。 > > ``` > Below is an instruction that describes a task. Write a response that appropriately completes the request. > > ### Instruction: > {instruction} > >...
确实没有放到模板里,晚上回去试一下
> 我测试了在 2M 和 50K 中文数据上 instruct tune 的 llama-LoRA 13B 模型,使用同样的generation 超参数,发现数据量少的模型会出现楼主说的重复问题,数据量大的模型则不会出现。所以,我感觉训练的数据量(以及数据质量)是关键。对于垂域来说,个人猜测可以将领域数据与通用数据结合起来,增加训练的数据量,或许可以避免重复问题(猜的,没试过) 你的意思是2M的中文数据在llama-13b和lora权重合并后的模型上微调没有重复的问题,那这2M的数据是垂直领域的还是通用领域的呢