googlefan256
googlefan256
実際に計測しないことにはわかりませんが、動的にslotを読み込んだりアンロードする負荷は間違いなく低いため、slotの読み込み上限を付けることで結果的に複数モデル扱うときのVRAM節約をすることはできるはずです。
そこらへんの実装をすることにしました(python版ではなくdocker版に) 同時にGPUに読み込むモデルに上限を付けることでメモリを節約できる機能です。 公式版と比べてGPUとCPU間の転送コストが低いため、高速に行えるはずです。
> そこらへんの実装をすることにしました(python版ではなくdocker版に) 同時にGPUに読み込むモデルに上限を付けることでメモリを節約できる機能です。 公式版と比べてGPUとCPU間の転送コストが低いため、高速に行えるはずです。 python版にも実装できそうです
ブラウザやno_std環境への対応も考えるとパスへのオフロードはできないため、新規でアンロード関数を追加するのが良さそう?
https://github.com/jpreprocess/jpreprocess/issues/436 原因?