ppl.nn.llm
ppl.nn.llm copied to clipboard
怎么设置 kv cache int8 量化, 但 a 和 w 仍然是f16,测试 kvcache 量化的收益