Duix.Heygem 服务端 f2f 启动不成功。

服务端f2f启动不成功。错误如下：

2025-04-02 17:35:43 heygem-f2f  | [2025-04-02 17:35:43] [app_local.py[line:230]] [WARNING] [ -> 服务不进行注册]
2025-04-02 17:35:43 heygem-f2f  | [2025-04-02 17:35:43] [app_local.py[line:231]] [INFO] [TransDhTask init]
2025-04-02 17:35:44 heygem-f2f  | Traceback (most recent call last):
2025-04-02 17:35:44 heygem-f2f  |   File "/code/app_local.py", line 231, in <module>
2025-04-02 17:35:44 heygem-f2f  |     TransDhTask.instance()
2025-04-02 17:35:44 heygem-f2f  |   File "trans_dh_service.py", line 1207, in trans_dh_service.TransDhTask.instance
2025-04-02 17:35:44 heygem-f2f  |   File "trans_dh_service.py", line 1189, in trans_dh_service.TransDhTask.__init__
2025-04-02 17:35:44 heygem-f2f  |   File "compute_ctc_att_bnf.py", line 130, in compute_ctc_att_bnf.load_ppg_model
2025-04-02 17:35:44 heygem-f2f  |   File "/usr/local/python3/lib/python3.8/site-packages/torch/nn/modules/module.py", line 1152, in to
2025-04-02 17:35:44 heygem-f2f  |     return self._apply(convert)
2025-04-02 17:35:44 heygem-f2f  |   File "/usr/local/python3/lib/python3.8/site-packages/torch/nn/modules/module.py", line 802, in _apply
2025-04-02 17:35:44 heygem-f2f  |     module._apply(fn)
2025-04-02 17:35:44 heygem-f2f  |   File "/usr/local/python3/lib/python3.8/site-packages/torch/nn/modules/module.py", line 802, in _apply
2025-04-02 17:35:44 heygem-f2f  |     module._apply(fn)
2025-04-02 17:35:44 heygem-f2f  |   File "/usr/local/python3/lib/python3.8/site-packages/torch/nn/modules/module.py", line 802, in _apply
2025-04-02 17:35:44 heygem-f2f  |     module._apply(fn)
2025-04-02 17:35:44 heygem-f2f  |   [Previous line repeated 1 more time]
2025-04-02 17:35:44 heygem-f2f  |   File "/usr/local/python3/lib/python3.8/site-packages/torch/nn/modules/module.py", line 825, in _apply
2025-04-02 17:35:44 heygem-f2f  |     param_applied = fn(param)
2025-04-02 17:35:44 heygem-f2f  |   File "/usr/local/python3/lib/python3.8/site-packages/torch/nn/modules/module.py", line 1150, in convert
2025-04-02 17:35:44 heygem-f2f  |     return t.to(device, dtype if t.is_floating_point() or t.is_complex() else None, non_blocking)
2025-04-02 17:35:44 heygem-f2f  |   File "/usr/local/python3/lib/python3.8/site-packages/torch/cuda/__init__.py", line 302, in _lazy_init
2025-04-02 17:35:44 heygem-f2f  |     torch._C._cuda_init()
2025-04-02 17:35:44 heygem-f2f  | RuntimeError: Unexpected error from cudaGetDeviceCount(). Did you run some cuda functions before calling NumCudaDevices() that might have already set an error? Error 500: named symbol not found

系统环境： NVIDIA 3060 TI cuda 118 驱动器版本 572.83

Apr 02 '25 09:04 paizero

从日志最后一行看，cudaGetDeviceCount错误通常是由于 CUDA 的版本与当前系统的 GPU 不兼容引起的。通过以下步骤应该能解决：

nvidia-smi命令：宿主机上执行nvidia-smi，确认命令能否正常执行。若能正常执行，则跳到步骤2；若无法执行，根据下面方法尝试解决： a. 重启电脑 b. 根据GPU显卡类型更换合适的显卡驱动，参考官网： https://www.nvidia.cn/geforce/drivers/

2.确认cuda版本，容器中的pip依赖的cuda版本是11.8，建议宿主机的cuda版本要12.0以上，如果达标，则忽略，不达标则尝试升级，官网下载地址： https://developer.nvidia.com/cuda-toolkit-archive

通过以上步骤，应该能解决这种

Apr 03 '25 02:04 LegendaryM

same problem，报错信息相同。环境：nvidia3090，显卡驱动版本 572.83，CUDA版本12.8。

Apr 03 '25 02:04 tomousw

same problem，报错信息相同。环境：nvidia3090，显卡驱动版本 572.83，CUDA版本12.8。

在国外社区看到同样的Pytorch错误，说是驱动版本太高了，在 554 版本以下才行。

Apr 03 '25 02:04 paizero

same problem，报错信息相同。环境：nvidia3090，显卡驱动版本 572.83，CUDA版本12.8。

在国外社区看到同样的Pytorch错误，说是驱动版本太高了，在 554 版本以下才行。

我本地是560版本，是可以正常跑的

Apr 03 '25 02:04 LegendaryM

same problem，报错信息相同。环境：nvidia3090，显卡驱动版本 572.83，CUDA版本12.8。

方便尝试降一下cuda toolkit的版本呢，降到12.2

Apr 03 '25 02:04 LegendaryM

same problem，报错信息相同。环境：nvidia3090，显卡驱动版本 572.83，CUDA版本12.8。

方便尝试降一下cuda toolkit的版本呢，降到12.2

尝试过了，cuda toolkit降到12.2，然后驱动尝试降回561.09以及552.22，都无效。

Apr 03 '25 03:04 tomousw

same problem，报错信息相同。环境：nvidia3090，显卡驱动版本 572.83，CUDA版本12.8。

在国外社区看到同样的Pytorch错误，说是驱动版本太高了，在 554 版本以下才行。

尝试过了，cuda toolkit降到12.2，然后驱动尝试降回561.09以及552.22，都无效。

Apr 03 '25 03:04 tomousw

same problem，报错信息相同。环境：nvidia3090，显卡驱动版本 572.83，CUDA版本12.8。

在国外社区看到同样的Pytorch错误，说是驱动版本太高了，在 554 版本以下才行。

尝试过了，cuda toolkit降到12.2，然后驱动尝试降回561.09以及552.22，都无效。

截图看看nvidia-smi的信息

Apr 03 '25 05:04 LegendaryM

same problem，报错信息相同。环境：nvidia3090，显卡驱动版本 572.83，CUDA版本12.8。

在国外社区看到同样的Pytorch错误，说是驱动版本太高了，在 554 版本以下才行。

尝试过了，cuda toolkit降到12.2，然后驱动尝试降回561.09以及552.22，都无效。

截图看看nvidia-smi的信息

当前配置下，报错信息与之前有区别，当前为runtimeerror:no cuda gpus are available，具体见上图。 nvidia-smi信息见上图。

Apr 03 '25 08:04 tomousw

same problem，报错信息相同。环境：nvidia3090，显卡驱动版本 572.83，CUDA版本12.8。

在国外社区看到同样的Pytorch错误，说是驱动版本太高了，在 554 版本以下才行。

尝试过了，cuda toolkit降到12.2，然后驱动尝试降回561.09以及552.22，都无效。

截图看看nvidia-smi的信息

当前配置下，报错信息与之前有区别，当前为runtimeerror:no cuda gpus are available，具体见上图。 nvidia-smi信息见上图。

你用的是docker desktop版本吧，如果是，不要使用win版docker，直接在wsl ubuntu中安装ubuntu（自行百度），再安装cuda-toolkit，nvidia-container-toolkit，后续如果还有问题，请发文。。。

Apr 04 '25 00:04 yuanli-wan

same problem，报错信息相同。环境：nvidia3090，显卡驱动版本 572.83，CUDA版本12.8。

在国外社区看到同样的Pytorch错误，说是驱动版本太高了，在 554 版本以下才行。

尝试过了，cuda toolkit降到12.2，然后驱动尝试降回561.09以及552.22，都无效。

截图看看nvidia-smi的信息

当前配置下，报错信息与之前有区别，当前为runtimeerror:no cuda gpus are available，具体见上图。 nvidia-smi信息见上图。

你用的是docker desktop版本吧，如果是，不要使用win版docker，直接在wsl ubuntu中安装ubuntu（自行百度），再安装cuda-toolkit，nvidia-container-toolkit，后续如果还有问题，请发文。。。

按照您的引导终于解决了，应该是因为我这台计算机安装的dockerdesktop版本较低，对容器内使用GPU的功能集成不够完善，新版本dockerdesktop可以很方便启动。解决过程相当艰辛，不过学到了很多，包括wsl导入导出ext4.vhdx操作、配置端口转发、修改yml配置挂载路径等等...再次表示感谢！

Apr 07 '25 13:04 tomousw

我找了一台3060 ti的，Driver Version: 560.94 CUDA Version: 12.6 这种配置是可以正常跑的，本机上不用装nvcc命令 docker desktop: https://desktop.docker.com/win/main/amd64/Docker%20Desktop%20Installer.exe?utm_source=docker&utm_medium=webreferral&utm_campaign=dd-smartbutton&utm_location=module&_gl=1p5w9h2_gcl_auMzc2NDg1MzU1LjE3NDQwMDYzMDk._gaNjY1NjMyNDM1LjE3NDQwMDYzMDk._ga_XJWPQMJYHQ*MTc0NDAwNjMwOC4xLjEuMTc0NDAwNjkwNi42MC4wLjA.

Apr 08 '25 02:04 LegendaryM

我找了一台3060 ti的，Driver Version: 560.94 CUDA Version: 12.6 这种配置是可以正常跑的，本机上不用装nvcc命令 docker desktop: https://desktop.docker.com/win/main/amd64/Docker%20Desktop%20Installer.exe?utm_source=docker&utm_medium=webreferral&utm_campaign=dd-smartbutton&utm_location=module&_gl=1p5w9h2_gcl_auMzc2NDg1MzU1LjE3NDQwMDYzMDk._gaNjY1NjMyNDM1LjE3NDQwMDYzMDk._ga_XJWPQMJYHQ*MTc0NDAwNjMwOC4xLjEuMTc0NDAwNjkwNi42MC4wLjA.

新版本docker desktop几乎是一键启动，甚至不需要不需要CUDAtoolkit以及nvidiacontainertoolkit，不过如果win版本低于19044，是没办法安装4.33.1以及以上版本的docker desktop的；要是不想升级win版本，就只能在wsl的distro里手动安装docker以及其他各种配置...

Apr 08 '25 03:04 tomousw