oneflow
oneflow copied to clipboard
Refactor sync access blob by callback
优化cuda_tensor.numpy(),内部不再调用cuda_tensor.cpu().to_numpy(),而是直接在main线程的cuda stream上SyncAutoMemCpy。
这个pr需要精简一下,不需要考虑main线程直接进入vm内部的这个特性。只需要考虑对cuda_tensor.numpy的支持就行。