chosenduke

Results 4 comments of chosenduke

具体实现longlora的算法是怎么样的呢

> 可能是 gemma 词表太大了,换 mistral 模型可能会好点 我的数据集是纯英文的呀,只占用了词表的一小部分,你是想说embedding层太大了嘛?

我是取了数据集的一小部分,这个一小部分里的数据已经算比较短的了,如果再截断有点担心训练质量呢 在 2024-03-10 00:33:53,"hoshi-hiyouga" ***@***.***> 写道: 首先你必须开启 flash_attn 然后调整截断长度直到不发生 OOM — Reply to this email directly, view it on GitHub, or unsubscribe. You are receiving this because you authored the...

这里的调整截断长度是指我在webui调整长度还是说我直接手动截断我数据集里的长度,我的数据集的input很长,output比较短,我需要手动截断input长度吗? 在 2024-03-10 00:33:53,"hoshi-hiyouga" ***@***.***> 写道: 首先你必须开启 flash_attn 然后调整截断长度直到不发生 OOM — Reply to this email directly, view it on GitHub, or unsubscribe. You are receiving this because you authored the...