zero-lora 将大型LLM与小型LLM相结合，以加快推理速度

将大型LLM与小型LLM相结合，以加快推理速度

Open ziwang-com opened this issue 2 years ago • 0 comments

trafficstars

https://github.com/ggerganov/llama.cpp/issues/630 将大型LLM与小型LLM相结合，以加快推理速度 #630 打开格尔加诺夫打开了这个问题 on Mar 31 ·27 评论评论 @ggerganov 所有者格尔加诺夫评论 on Mar 31 所以我在考虑以下想法。这可能完全是假的，但我肯定会在有时间的时候调查它，所以也许其他人也会感兴趣。

大型LLM需要花费大量时间来执行令牌推理。假设每个令牌需要 500 毫秒。

小型LLM（或其他方法）可以非常快速地推断令牌。假设< 5 毫秒。

让我们假设小LLM在80-90%的情况下是正确的。

思路如下：

在为下一个令牌运行大型 LLM 推理之前，我使用小型 LLM 进行推断我现在想以某种方式部分评估大型LLM（假设层的前10%）并获得下一个令牌的近似估计值如果这个估计表明该代币的概率很高（即高于某个阈值） - 我们停止并直接说这是新代币。在这一点上，我们将消耗（小型LLM为5ms + 大型LLM为~50ms）否则，我们继续评估大型LLM的其余层在所描述的过程中，对于 10-20% 的令牌，我只会到达步骤 4，但对于其余的 - 我将采用步骤 3 中的快捷方式。因此，我将对大型LLM进行有效的推断。

显然，最大的问题是第 2 步是否可行。我想答案是否定的，但谁知道呢。

May 20 '23 02:05 ziwang-com

zero-lora zero-lora copied to clipboard

将大型LLM与小型LLM相结合，以加快推理速度

zero-lora
zero-lora copied to clipboard