PaddleNLP icon indicating copy to clipboard operation
PaddleNLP copied to clipboard

[Question]: paddlenlp_ops安装报错PaddleNLP/csrc/generation/quant_int8.cu(57): error: no suitable user-defined conversion from "__nv_bfloat16" to "__half" exists

Open ExtremelyDarkSun opened this issue 1 year ago • 7 comments

请提出你的问题

运行该代码时报错,PaddleNLP/csrc: python setup_cuda.py install

报错:[2023-11-29 11:14:47,640] [ INFO] spawn.py:38 - /usr/local/cuda/bin/nvcc -I/paddle/lyk/anaconda3/lib/python3.11/site-packages/paddle/include -I/paddle/lyk/anaconda3/lib/python3.11/site-packages/paddle/include/third_party -I/usr/local/cuda/include -I/paddle/lyk/anaconda3/include/python3.11 -I/paddle/lyk/anaconda3/include/python3.11 -c /paddle/lyk/deploy/PaddleNLP/csrc/generation/quant_int8.cu -o /paddle/lyk/deploy/PaddleNLP/csrc/build/paddlenlp_ops/lib.linux-x86_64-cpython-311/quant_int8.cu.o -DPADDLE_WITH_CUDA -DEIGEN_USE_GPU -ccbin cc -Xcompiler -fPIC --expt-relaxed-constexpr -DNVCC -O3 -U__CUDA_NO_HALF_OPERATORS__ -U__CUDA_NO_HALF_CONVERSIONS__ -U__CUDA_NO_BFLOAT16_OPERATORS__ -U__CUDA_NO_BFLOAT16_CONVERSIONS__ -U__CUDA_NO_BFLOAT162_OPERATORS__ -U__CUDA_NO_BFLOAT162_CONVERSIONS__ -gencode arch=compute_70,code=sm_70 -w -DPADDLE_WITH_CUSTOM_KERNEL -D_GLIBCXX_USE_CXX11_ABI=1 -std=c++14 /paddle/lyk/deploy/PaddleNLP/csrc/generation/quant_int8.cu(57): error: no suitable user-defined conversion from "__nv_bfloat16" to "__half" exists

1 error detected in the compilation of "/paddle/lyk/deploy/PaddleNLP/csrc/generation/quant_int8.cu".

我的cuda版本为11.2,paddlenlp为develop版本,python版本为3.11,paddlepaddle版本为develop版本

ExtremelyDarkSun avatar Nov 29 '23 11:11 ExtremelyDarkSun

从报错中发现您的环境应该是V100机器,cuda版本应该不会是11.2(请通过nvcc -V确认而非nvidia-smi).您的问题应该是由于cuda版本不支持bf16导致的,抱歉我们最近的修改没有对BF16进行完整测试,我们将很快对此进行修复

RichardWooSJTU avatar Nov 29 '23 13:11 RichardWooSJTU

从报错中发现您的环境应该是V100机器,cuda版本应该不会是11.2(请通过nvcc -V确认而非nvidia-smi).您的问题应该是由于cuda版本不支持bf16导致的,抱歉我们最近的修改没有对BF16进行完整测试,我们将很快对此进行修复

借个楼。大哥,麻烦测试的测一下别的功能啊。就比如说model_zoo/ernie_3.0中的代码功能啊,都买了百度的算力了。稍微给点力啊。

luoruijie avatar Nov 30 '23 02:11 luoruijie

从报错中发现您的环境应该是V100机器,cuda版本应该不会是11.2(请通过nvcc -V确认而非nvidia-smi).您的问题应该是由于cuda版本不支持bf16导致的,抱歉我们最近的修改没有对BF16进行完整测试,我们将很快对此进行修复

我的机器确实是v100,但nvcc -V查看版本后依然为11.2.

ExtremelyDarkSun avatar Nov 30 '23 08:11 ExtremelyDarkSun

请问这个问题解决了吗

Xiaopu17 avatar Dec 14 '23 08:12 Xiaopu17

请问这个问题解决了吗

目前需要cuda10.2,安装这个paddlepaddle http://10.255.125.21:8111/paddlepaddle_gpu-0.0.0.post102-cp37-cp37m-linux_x86_64.whl,和paddlenlp这个branch https://github.com/PaddlePaddle/PaddleNLP/pull/7600,和先删除conda里的zlib库(1.2.13版本),然后通过export LD_PRELOAD=/usr/lib/x86_64-linux-gnu/libz.so 把zlib的链接目标到系统自带的1.2.8版本的zlib能编译成功

ExtremelyDarkSun avatar Dec 14 '23 09:12 ExtremelyDarkSun

请问这个问题解决了吗

目前需要cuda10.2,安装这个paddlepaddle http://10.255.125.21:8111/paddlepaddle_gpu-0.0.0.post102-cp37-cp37m-linux_x86_64.whl,和paddlenlp这个branch https://github.com/PaddlePaddle/PaddleNLP/pull/7600,和先删除conda里的zlib库(1.2.13版本),然后通过export LD_PRELOAD=/usr/lib/x86_64-linux-gnu/libz.so 把zlib的链接目标到系统自带的1.2.8版本的zlib能编译成功

更换zlib也不行,还是相同的地方相同的错误

Xiaopu17 avatar Dec 15 '23 03:12 Xiaopu17

This issue is stale because it has been open for 60 days with no activity. 当前issue 60天内无活动,被标记为stale。

github-actions[bot] avatar Feb 14 '24 00:02 github-actions[bot]

This issue was closed because it has been inactive for 14 days since being marked as stale. 当前issue 被标记为stale已有14天,即将关闭。

github-actions[bot] avatar Feb 29 '24 00:02 github-actions[bot]