zero-lora icon indicating copy to clipboard operation
zero-lora copied to clipboard

将 LoRA 应用于更多线性图层

Open ziwang-com opened this issue 2 years ago • 0 comments
trafficstars

https://github.com/Lightning-AI/lit-llama/issues/350

我们当前的 LoRA 实现仅将其应用于 qv 计算.但是,最近的趋势表明,将其应用于其他地方可以提高性能。

例如,QLoRA论文报告:

如图 2 所示,在 Alpaca 上进行 LLaMA 7B 微调,我们发现最关键的 LoRA 超参数是总共使用了多少个 LoRA 适配器,并且所有线性变压器块层上的 LoRA 都需要匹配完整的微调性能

我看到其他在线从业者也将其应用于 和 .但我没有任何消息来源可以引用关于这是更好还是更糟lm_headMLP 在LoRA论文的第7.1节中,作者比较了具有较高等级的较少的LoRA层与具有较小等级的更多层,并发现尽管排名较小,但更多的层获胜。 当然,这并不一定意味着在所有条件相同的情况下,LoRA 层越多越好, 但这是我想到的最好的.


ziwang-com avatar Jun 05 '23 01:06 ziwang-com