oneflow
oneflow copied to clipboard
【建议】FP16/BF16 的 restrict 模式:只将 matmul 在 FP16/BF16 执行,其它算子仍然在 FP32 执行
trafficstars
目前 FP16/BF16 的主要目的是加速,通常只有 matmul 是加速最明显的。
如果将太多算子在 FP16/BF16 执行,计算图中容易有大量 f2h h2f,反而变慢。
因此建议加个 restrict 模式,只将 matmul 在 FP16/BF16 执行,其它算子仍然在 FP32 执行。
这样,只需要在 matmul 头尾加上 f2h h2f,其它地方都不需要 f2h h2f。