zero-lora
zero-lora copied to clipboard
将大型LLM与小型LLM相结合,以加快推理速度
trafficstars
https://github.com/ggerganov/llama.cpp/issues/630 将大型LLM与小型LLM相结合,以加快推理速度 #630 打开 格尔加诺夫打开了这个问题 on Mar 31 ·27 评论 评论 @ggerganov 所有者 格尔加诺夫评论 on Mar 31 所以我在考虑以下想法。 这可能完全是假的,但我肯定会在有时间的时候调查它,所以也许其他人也会感兴趣。
大型LLM需要花费大量时间来执行令牌推理。假设每个令牌需要 500 毫秒。
小型LLM(或其他方法)可以非常快速地推断令牌。假设< 5 毫秒。
让我们假设小LLM在80-90%的情况下是正确的。
思路如下:
在为下一个令牌运行大型 LLM 推理之前,我使用小型 LLM 进行推断 我现在想以某种方式部分评估大型LLM(假设层的前10%)并获得下一个令牌的近似估计值 如果这个估计表明该代币的概率很高(即高于某个阈值) - 我们停止并直接说这是新代币。在这一点上,我们将消耗(小型LLM为5ms + 大型LLM为~50ms) 否则,我们继续评估大型LLM的其余层 在所描述的过程中,对于 10-20% 的令牌,我只会到达步骤 4,但对于其余的 - 我将采用步骤 3 中的快捷方式。 因此,我将对大型LLM进行有效的推断。
显然,最大的问题是第 2 步是否可行。 我想答案是否定的,但谁知道呢。