Xiaoyu Xu comments

Results 200 comments of


                                            Xiaoyu Xu

关于加速后生成图像质量变差的问题

> > 可以设置环境变量ONEFLOW_CONV_ALLOW_HALF_PRECISION_ACCUMULATION=0和ONEFLOW_MATMUL_ALLOW_HALF_PRECISION_ACCUMULATION=0再试试，设置之后对于conv和linear，onediff会采用更高精度的计算方式 > > 但这样设置之后，后影响推理速度吗？预估影响 5% 的性能，可以试下，看能否解决问题。

关于加速后生成图像质量变差的问题

质量评估：https://github.com/siliconflow/OneDiffGenMetrics

另外因为 torch 不同版本的 conv 也会带来写差异，比如 conv kernel cuda v8 api pytorch的cudnn_convolution计算函数从v7（调用cudnnConvolutionForward，与oneflow一致）更新到了v8（调用cudnnBackendExecute），默认为v8版本 ![image](https://github.com/Oneflow-Inc/OneTeam/assets/56420840/a76d7e98-431f-4506-9b7a-fd8567b83a48) 设置TORCH_CUDNN_V8_API_DISABLED=1后pytorch和oneflow的计算结果一致 (https://github.com/Oneflow-Inc/OneTeam/issues/2198)

关于加速后生成图像质量变差的问题

> > 另外，我尝试了SDXL Base出现了模糊，但是使用playground-v2.5-1024px-aesthetic不会出现模糊。 > > 使用的版本是2.2.0+cu118 > > @strint 您好，方便的话能把pytorch版本、cuda版本等关键配置信息分享一下吗？我们希望至少能跑通SDXL Base 你用的 prompt 和种子是什么，我们看能否复现你这个问题。如果有代码更好

关于加速后生成图像质量变差的问题

torch.__version__ '2.1.1' CUDA Version: 12.2 @csdY123

关于加速后生成图像质量变差的问题

> > torch.**version** '2.1.1' CUDA Version: 12.2 > > @strint > > 非常感谢！！！另外，请问deepcache是使用了int8推理吗社区版默认是没有开 int8 推理的。int8 推理属于企业版的功能，只对少量模型做了 int8 量化。

Can OneDiff use for webui-forge?

Not yet. If anyone is interested to do this, I can provide tech support! @hoodady @akk-123

A100集群测试2机16卡吞吐低于单机8卡吞吐

建议先用英伟达profile工具看下瓶颈 # 英伟达profile工具 ## 地址 https://developer.nvidia.com/nsight-systems ## nsys使⽤ nsys有多种使⽤⽅法，为了测量统计埋点的时间，简单直观的使⽤⽅式直接运⾏如下指令： ```shell nsys profile --stats=true \ python3 cnn_benchmark/of_cnn_benchmarks.py \ --gpu_num_per_node=1 \ --model="alexnet" \ --batch_size_per_device=8 \ --iter_num=20 \ --learning_rate=0.01 \ --optimizer="sgd" \ --loss_print_every_n_iter=1...