Xiaoyu Xu

Results 200 comments of Xiaoyu Xu

可以提供下复现问题的代码么,这个需要能复现才好办

> > 可以设置环境变量ONEFLOW_CONV_ALLOW_HALF_PRECISION_ACCUMULATION=0和ONEFLOW_MATMUL_ALLOW_HALF_PRECISION_ACCUMULATION=0再试试,设置之后对于conv和linear,onediff会采用更高精度的计算方式 > > 但这样设置之后,后影响推理速度吗? 预估影响 5% 的性能,可以试下,看能否解决问题。

确实改善了,现在哪里还有差异呢

质量评估:https://github.com/siliconflow/OneDiffGenMetrics

另外因为 torch 不同版本的 conv 也会带来写差异,比如 conv kernel cuda v8 api pytorch的cudnn_convolution计算函数从v7(调用cudnnConvolutionForward,与oneflow一致)更新到了v8(调用cudnnBackendExecute),默认为v8版本 ![image](https://github.com/Oneflow-Inc/OneTeam/assets/56420840/a76d7e98-431f-4506-9b7a-fd8567b83a48) 设置TORCH_CUDNN_V8_API_DISABLED=1后pytorch和oneflow的计算结果一致 (https://github.com/Oneflow-Inc/OneTeam/issues/2198)

> > 另外,我尝试了SDXL Base出现了模糊,但是使用playground-v2.5-1024px-aesthetic不会出现模糊。 > > 使用的版本是2.2.0+cu118 > > @strint 您好,方便的话能把pytorch版本、cuda版本等关键配置信息分享一下吗? 我们希望至少能跑通SDXL Base 你用的 prompt 和种子是什么,我们看能否复现你这个问题。如果有代码更好

torch.__version__ '2.1.1' CUDA Version: 12.2 @csdY123

> > torch.**version** '2.1.1' CUDA Version: 12.2 > > @strint > > 非常感谢!!!另外,请问deepcache是使用了int8推理吗 社区版默认是没有开 int8 推理的。int8 推理属于企业版的功能,只对少量模型做了 int8 量化。

Not yet. If anyone is interested to do this, I can provide tech support! @hoodady @akk-123

建议先用英伟达profile工具看下瓶颈 # 英伟达profile工具 ## 地址 https://developer.nvidia.com/nsight-systems ## nsys使⽤ nsys有多种使⽤⽅法,为了测量统计埋点的时间,简单直观的使⽤⽅式直接运⾏如下指令: ```shell nsys profile --stats=true \ python3 cnn_benchmark/of_cnn_benchmarks.py \ --gpu_num_per_node=1 \ --model="alexnet" \ --batch_size_per_device=8 \ --iter_num=20 \ --learning_rate=0.01 \ --optimizer="sgd" \ --loss_print_every_n_iter=1...