cywjava
cywjava
是你的txt 语料 ,处理成一行一句话,文件末尾不能有换行
可以的吧,我也是参考别人修改的微调,做了一个,把数据放进去,处理成要的格式不就行了吗? https://github.com/chenyiwan/chatglm-6b-fine-tuning
你加载模型时,是不是.float()啊
Lora 训练新知识,我试了一下几千步就可以了,要是几万步,反而推理结果更差
主要是卡之间的通信要很长时间
> 我用是用的超微,5张3090 24GB ,插了两张NVLINK,我也没觉得有多快。。  另外还有一台超微 8卡 P40 24gb,全拿来做推理了。 > 我当然知道,目前是打算拿下一块超微的主板,双路CPU,每一路包含4个pcie3.0 x16,但是我仍然不确定没有nvlink的情况下带宽瓶颈有多严重。根据经验,多卡训练的主要瓶颈就是带宽(而不是Flops),一般来说nvlink可以提供上百G的带宽,而pcie3.0 x16只有16G每秒,pcie4.0 x16只有32G每秒 > […](#) > On Fri, May 5, 2023 at 1:10 AM Hang Yu @ DigiPen ***@***.***>...
torch.cuda.empty_cache() 你不访多执行几次
根本不建议直接在文本生成上面封装http请求的api,高并发下你的显存直接爆,根本无法使用。 你应该考虑将问题输入队列,这里直接从队列里一个一个的获取问题,得到输出。前端使用websocket 获取响应文本,或者简单点采用轮循的方式获取。
> > 根本不建议直接在文本生成上面封装http请求的api,高并发下你的显存直接爆,根本无法使用。 > > 你应该考虑将问题输入队列,这里直接从队列里一个一个的获取问题,得到输出。前端使用websocket 获取响应文本,或者简单点采用轮循的方式获取。 > > 可是这样做的话,就不是多轮对话了呀 多轮对话跟这个关系不大,你仔细看看chat方法。
太玄幻了,我用lora 微调后也是这个样子。