grantchenhuarong
grantchenhuarong
改变语料模仿医疗单指令微调,同时只跑10steps( 10X128X4 / 347 > 10轮)  测试效果       基本上训练语料的内容,都没有体现出来。。。有些困惑了。lora只能作为引子,去勾兑出llama底层模型中的数据么?如果原先训练的底层模型,它文字接龙创作出来的东西,其实也很难被有限的新增语料引导么? 那针对私域垂直领域知识模型,是否只能从头开始训练底层模型?这难度可不是一般的大啊。。。
但是大神,您那个medical的样例,可是让我羡慕的很啊,一定要整合出来20W数据,再跑一下么?其实也可以,我换个单指令,直接问诗句出处,这样应该能够制作更多的数据出来。 还有哪些要注意的地方么?2080ti都要被我给玩坏了都。
制作了20万数据如下  又准备开始炼丹了。。。祝我好运吧
谢谢大佬的回应哈,有几个问题咨询一下: 1、您说的20多个epoch,不是指steps,而是覆盖一次全量数据的训练度么? 2、我的batch_size用的默认的128,micro batch size是默认的4。需要调小到多小? 3、还有您是用 continue.sh,还是使用others_continue.sh脚本的参数执行的呀? 4、所给的数据,你是构造单指令微调的方式么?可否参考一下语料的构造方式? 5、您说的有一定效果,是指的能按指令出语料的应答数据么?符合度有多高呀?
也是从checkpoint-11600这两个epoch的lora模型训练的么?我也试着改成您的语料结构,试试347首诗词的训练。
继续努力中。。。 
跑到11904异常退出,接着它再断点续传 
确实训练60个epoch后,效果也是出来了,感谢大佬细心指导。      效果确实出来了,咱这种方法确实是可行的。 另外,对于一些超长的诗篇,如屈原的离骚之类的,一般是怎样处理的呢。将256搞成2048,估计都不够呢。
尝试去除instruction        
@Facico 再次感谢,炼丹路上刚起步,期望能够跟上大佬脚步。