ppl.llm.kernel.cuda
ppl.llm.kernel.cuda copied to clipboard
[Feature Request] 能否增加用python调用这些cuda kernal的test脚本呢?
你好!我想在我的llama13B和百川13B测试decode attention在解码时候的性能效果,请问有没有对应的python接口的示例呢? 期待您的回复!