MNN linux x86_64 平台，多线程情况下， mnn 和推理速度不如 onnx，有可能是什么原因？

MNN 版本：MNN-2.9.0
平台：linux x86_64， Intel(R) Xeon(R) Platinum 8255C CPU @ 2.50GHz
使用工程中 release.sh 编译 pymnn
开启的编译选项

CMAKE_ARGS="-DMNN_BUILD_CONVERTER=on -DMNN_BUILD_TRAIN=ON -DCMAKE_BUILD_TYPE=Release -DMNN_BUILD_SHARED_LIBS=OFF -DMNN_SEP_BUILD=OFF -DMNN_USE_THREAD_POOL=OFF -DMNN_OPENMP=ON -DMNN_BUILD_OPENCV=ON -DMNN_IMGCODECS=ON -DMNN_BUILD_TORCH=ON -DMNN_VULKAN=ON -DMNN_AVX512=ON -DMNN_BUILD_DEMO=ON -DMNN_BUILD_BENCHMARK=ON MNN_-DAVX512_VNNI=ON"

多线程情况下（thread_num>=2时）， mnn 和推理速度不如 onnx，有可能是什么原因？