Sparsebit
Sparsebit copied to clipboard
Jst/support multi epoch pp qlora finetuning
Model | 1epoch PPL | 3epoch PPL |
---|---|---|
LLaMA-7b | 2.397 | 2.345 |
LLaMA-65b | 2.304 |
LLaMA-7b 4bit QLoRA(lr=3e-4) finetune loss曲线:
LLaMA-65b 4bit QLoRA(lr=1e-4) finetune loss曲线(目前仅1 epoch):