GoHomeToMacDonal

Results 1 comments of GoHomeToMacDonal

> 目前的推理优化稀烂,垃圾点的N卡和先进点的N卡,速度差不太多 需要工程大佬入场。什么compile啊,triton啊,flashattention啊,trt啊。。。 我个人做算法的,工程上比较局限(´;ω;‘) GPT类模型现在业界主流的算法工程方案是适当牺牲推理延迟(单个token生成的时间),换取更高的吞吐量,最简单的batch inference就能以大约1.5倍的推理时间换取10倍以上的吞吐量提高。实际上GPT-SoVITS的模型规模不大,正常来说 RTX 3090 上应该能达到 5000 tokens/s 的吞吐量。这里面优化一共要做两个事情,一个是算子计算优化,代表性的工具有 `SDPA`, `flash attention` 之类的工具,另一个是显存管理优化。显存管理优化一般会集成到一些推理服务框架里面,比如`vllm`, `tensorrt-llm`, `flashinfer`等。 现在的问题是,很多GPT-SoVITS的用户使用的是Windows,大部分推理服务框架都只支持 Linux 系统,也没有支持 Windows 的计划,想要在 Windows 上编译需要做大量修改。剩下可用的只有 `flash attention`,但是 `flash attention` 需要自己在...