googlefan256

Results 5 comments of googlefan256

実際に計測しないことにはわかりませんが、動的にslotを読み込んだりアンロードする負荷は間違いなく低いため、slotの読み込み上限を付けることで結果的に複数モデル扱うときのVRAM節約をすることはできるはずです。

そこらへんの実装をすることにしました(python版ではなくdocker版に) 同時にGPUに読み込むモデルに上限を付けることでメモリを節約できる機能です。 公式版と比べてGPUとCPU間の転送コストが低いため、高速に行えるはずです。

> そこらへんの実装をすることにしました(python版ではなくdocker版に) 同時にGPUに読み込むモデルに上限を付けることでメモリを節約できる機能です。 公式版と比べてGPUとCPU間の転送コストが低いため、高速に行えるはずです。 python版にも実装できそうです

https://github.com/jpreprocess/jpreprocess/issues/436 原因?