服务端 f2f 启动不成功。
服务端f2f启动不成功。错误如下:
2025-04-02 17:35:43 heygem-f2f | [2025-04-02 17:35:43] [app_local.py[line:230]] [WARNING] [ -> 服务不进行注册]
2025-04-02 17:35:43 heygem-f2f | [2025-04-02 17:35:43] [app_local.py[line:231]] [INFO] [TransDhTask init]
2025-04-02 17:35:44 heygem-f2f | Traceback (most recent call last):
2025-04-02 17:35:44 heygem-f2f | File "/code/app_local.py", line 231, in <module>
2025-04-02 17:35:44 heygem-f2f | TransDhTask.instance()
2025-04-02 17:35:44 heygem-f2f | File "trans_dh_service.py", line 1207, in trans_dh_service.TransDhTask.instance
2025-04-02 17:35:44 heygem-f2f | File "trans_dh_service.py", line 1189, in trans_dh_service.TransDhTask.__init__
2025-04-02 17:35:44 heygem-f2f | File "compute_ctc_att_bnf.py", line 130, in compute_ctc_att_bnf.load_ppg_model
2025-04-02 17:35:44 heygem-f2f | File "/usr/local/python3/lib/python3.8/site-packages/torch/nn/modules/module.py", line 1152, in to
2025-04-02 17:35:44 heygem-f2f | return self._apply(convert)
2025-04-02 17:35:44 heygem-f2f | File "/usr/local/python3/lib/python3.8/site-packages/torch/nn/modules/module.py", line 802, in _apply
2025-04-02 17:35:44 heygem-f2f | module._apply(fn)
2025-04-02 17:35:44 heygem-f2f | File "/usr/local/python3/lib/python3.8/site-packages/torch/nn/modules/module.py", line 802, in _apply
2025-04-02 17:35:44 heygem-f2f | module._apply(fn)
2025-04-02 17:35:44 heygem-f2f | File "/usr/local/python3/lib/python3.8/site-packages/torch/nn/modules/module.py", line 802, in _apply
2025-04-02 17:35:44 heygem-f2f | module._apply(fn)
2025-04-02 17:35:44 heygem-f2f | [Previous line repeated 1 more time]
2025-04-02 17:35:44 heygem-f2f | File "/usr/local/python3/lib/python3.8/site-packages/torch/nn/modules/module.py", line 825, in _apply
2025-04-02 17:35:44 heygem-f2f | param_applied = fn(param)
2025-04-02 17:35:44 heygem-f2f | File "/usr/local/python3/lib/python3.8/site-packages/torch/nn/modules/module.py", line 1150, in convert
2025-04-02 17:35:44 heygem-f2f | return t.to(device, dtype if t.is_floating_point() or t.is_complex() else None, non_blocking)
2025-04-02 17:35:44 heygem-f2f | File "/usr/local/python3/lib/python3.8/site-packages/torch/cuda/__init__.py", line 302, in _lazy_init
2025-04-02 17:35:44 heygem-f2f | torch._C._cuda_init()
2025-04-02 17:35:44 heygem-f2f | RuntimeError: Unexpected error from cudaGetDeviceCount(). Did you run some cuda functions before calling NumCudaDevices() that might have already set an error? Error 500: named symbol not found
系统环境 : NVIDIA 3060 TI cuda 118 驱动器版本 572.83
从日志最后一行看,cudaGetDeviceCount错误通常是由于 CUDA 的版本与当前系统的 GPU 不兼容引起的。通过以下步骤应该能解决:
- nvidia-smi命令:
宿主机上执行nvidia-smi,确认命令能否正常执行。若能正常执行,则跳到步骤2;若无法执行,根据下面方法尝试解决:
a. 重启电脑
b. 根据GPU显卡类型更换合适的显卡驱动,参考官网: https://www.nvidia.cn/geforce/drivers/
2.确认cuda版本,容器中的pip依赖的cuda版本是11.8,建议宿主机的cuda版本要12.0以上,如果达标,则忽略,不达标则尝试升级,官网下载地址: https://developer.nvidia.com/cuda-toolkit-archive
通过以上步骤,应该能解决这种
same problem,报错信息相同。环境:nvidia3090,显卡驱动版本 572.83,CUDA版本12.8。
same problem,报错信息相同。环境:nvidia3090,显卡驱动版本 572.83,CUDA版本12.8。
在国外社区看到同样的Pytorch错误,说是驱动版本太高了,在 554 版本以下才行。
same problem,报错信息相同。环境:nvidia3090,显卡驱动版本 572.83,CUDA版本12.8。
在国外社区看到同样的Pytorch错误,说是驱动版本太高了,在 554 版本以下才行。
我本地是560版本,是可以正常跑的
same problem,报错信息相同。环境:nvidia3090,显卡驱动版本 572.83,CUDA版本12.8。
方便尝试降一下cuda toolkit的版本呢,降到12.2
same problem,报错信息相同。环境:nvidia3090,显卡驱动版本 572.83,CUDA版本12.8。
方便尝试降一下cuda toolkit的版本呢,降到12.2
尝试过了,cuda toolkit降到12.2,然后驱动尝试降回561.09以及552.22,都无效。
same problem,报错信息相同。环境:nvidia3090,显卡驱动版本 572.83,CUDA版本12.8。
在国外社区看到同样的Pytorch错误,说是驱动版本太高了,在 554 版本以下才行。
尝试过了,cuda toolkit降到12.2,然后驱动尝试降回561.09以及552.22,都无效。
same problem,报错信息相同。环境:nvidia3090,显卡驱动版本 572.83,CUDA版本12.8。
在国外社区看到同样的Pytorch错误,说是驱动版本太高了,在 554 版本以下才行。
尝试过了,cuda toolkit降到12.2,然后驱动尝试降回561.09以及552.22,都无效。
截图看看nvidia-smi的信息
same problem,报错信息相同。环境:nvidia3090,显卡驱动版本 572.83,CUDA版本12.8。
在国外社区看到同样的Pytorch错误,说是驱动版本太高了,在 554 版本以下才行。
尝试过了,cuda toolkit降到12.2,然后驱动尝试降回561.09以及552.22,都无效。
截图看看nvidia-smi的信息
当前配置下,报错信息与之前有区别,当前为runtimeerror:no cuda gpus are available,具体见上图。 nvidia-smi信息见上图。
same problem,报错信息相同。环境:nvidia3090,显卡驱动版本 572.83,CUDA版本12.8。
在国外社区看到同样的Pytorch错误,说是驱动版本太高了,在 554 版本以下才行。
尝试过了,cuda toolkit降到12.2,然后驱动尝试降回561.09以及552.22,都无效。
截图看看nvidia-smi的信息
![]()
![]()
当前配置下,报错信息与之前有区别,当前为runtimeerror:no cuda gpus are available,具体见上图。 nvidia-smi信息见上图。
你用的是docker desktop版本吧,如果是,不要使用win版docker,直接在wsl ubuntu中安装ubuntu(自行百度),再安装cuda-toolkit,nvidia-container-toolkit,后续如果还有问题,请发文。。。
same problem,报错信息相同。环境:nvidia3090,显卡驱动版本 572.83,CUDA版本12.8。
在国外社区看到同样的Pytorch错误,说是驱动版本太高了,在 554 版本以下才行。
尝试过了,cuda toolkit降到12.2,然后驱动尝试降回561.09以及552.22,都无效。
截图看看nvidia-smi的信息
![]()
![]()
当前配置下,报错信息与之前有区别,当前为runtimeerror:no cuda gpus are available,具体见上图。 nvidia-smi信息见上图。
你用的是docker desktop版本吧,如果是,不要使用win版docker,直接在wsl ubuntu中安装ubuntu(自行百度),再安装cuda-toolkit,nvidia-container-toolkit,后续如果还有问题,请发文。。。
按照您的引导终于解决了,应该是因为我这台计算机安装的dockerdesktop版本较低,对容器内使用GPU的功能集成不够完善,新版本dockerdesktop可以很方便启动。 解决过程相当艰辛,不过学到了很多,包括wsl导入导出ext4.vhdx操作、配置端口转发、修改yml配置挂载路径等等...再次表示感谢!
我找了一台3060 ti的,Driver Version: 560.94 CUDA Version: 12.6 这种配置是可以正常跑的,本机上不用装nvcc命令 docker desktop: https://desktop.docker.com/win/main/amd64/Docker%20Desktop%20Installer.exe?utm_source=docker&utm_medium=webreferral&utm_campaign=dd-smartbutton&utm_location=module&_gl=1p5w9h2_gcl_auMzc2NDg1MzU1LjE3NDQwMDYzMDk._gaNjY1NjMyNDM1LjE3NDQwMDYzMDk._ga_XJWPQMJYHQ*MTc0NDAwNjMwOC4xLjEuMTc0NDAwNjkwNi42MC4wLjA.
我找了一台3060 ti的,Driver Version: 560.94 CUDA Version: 12.6 这种配置是可以正常跑的,本机上不用装nvcc命令 docker desktop: https://desktop.docker.com/win/main/amd64/Docker%20Desktop%20Installer.exe?utm_source=docker&utm_medium=webreferral&utm_campaign=dd-smartbutton&utm_location=module&_gl=1p5w9h2_gcl_auMzc2NDg1MzU1LjE3NDQwMDYzMDk._gaNjY1NjMyNDM1LjE3NDQwMDYzMDk._ga_XJWPQMJYHQ*MTc0NDAwNjMwOC4xLjEuMTc0NDAwNjkwNi42MC4wLjA.
新版本docker desktop几乎是一键启动,甚至不需要不需要CUDAtoolkit以及nvidiacontainertoolkit,不过如果win版本低于19044,是没办法安装4.33.1以及以上版本的docker desktop的;要是不想升级win版本,就只能在wsl的distro里手动安装docker以及其他各种配置...
当前配置下,报错信息与之前有区别,当前为runtimeerror:no cuda gpus are available,具体见上图。 nvidia-smi信息见上图。