Duix.Heygem icon indicating copy to clipboard operation
Duix.Heygem copied to clipboard

服务端 f2f 启动不成功。

Open paizero opened this issue 8 months ago • 13 comments

服务端f2f启动不成功。错误如下:

2025-04-02 17:35:43 heygem-f2f  | [2025-04-02 17:35:43] [app_local.py[line:230]] [WARNING] [ -> 服务不进行注册]
2025-04-02 17:35:43 heygem-f2f  | [2025-04-02 17:35:43] [app_local.py[line:231]] [INFO] [TransDhTask init]
2025-04-02 17:35:44 heygem-f2f  | Traceback (most recent call last):
2025-04-02 17:35:44 heygem-f2f  |   File "/code/app_local.py", line 231, in <module>
2025-04-02 17:35:44 heygem-f2f  |     TransDhTask.instance()
2025-04-02 17:35:44 heygem-f2f  |   File "trans_dh_service.py", line 1207, in trans_dh_service.TransDhTask.instance
2025-04-02 17:35:44 heygem-f2f  |   File "trans_dh_service.py", line 1189, in trans_dh_service.TransDhTask.__init__
2025-04-02 17:35:44 heygem-f2f  |   File "compute_ctc_att_bnf.py", line 130, in compute_ctc_att_bnf.load_ppg_model
2025-04-02 17:35:44 heygem-f2f  |   File "/usr/local/python3/lib/python3.8/site-packages/torch/nn/modules/module.py", line 1152, in to
2025-04-02 17:35:44 heygem-f2f  |     return self._apply(convert)
2025-04-02 17:35:44 heygem-f2f  |   File "/usr/local/python3/lib/python3.8/site-packages/torch/nn/modules/module.py", line 802, in _apply
2025-04-02 17:35:44 heygem-f2f  |     module._apply(fn)
2025-04-02 17:35:44 heygem-f2f  |   File "/usr/local/python3/lib/python3.8/site-packages/torch/nn/modules/module.py", line 802, in _apply
2025-04-02 17:35:44 heygem-f2f  |     module._apply(fn)
2025-04-02 17:35:44 heygem-f2f  |   File "/usr/local/python3/lib/python3.8/site-packages/torch/nn/modules/module.py", line 802, in _apply
2025-04-02 17:35:44 heygem-f2f  |     module._apply(fn)
2025-04-02 17:35:44 heygem-f2f  |   [Previous line repeated 1 more time]
2025-04-02 17:35:44 heygem-f2f  |   File "/usr/local/python3/lib/python3.8/site-packages/torch/nn/modules/module.py", line 825, in _apply
2025-04-02 17:35:44 heygem-f2f  |     param_applied = fn(param)
2025-04-02 17:35:44 heygem-f2f  |   File "/usr/local/python3/lib/python3.8/site-packages/torch/nn/modules/module.py", line 1150, in convert
2025-04-02 17:35:44 heygem-f2f  |     return t.to(device, dtype if t.is_floating_point() or t.is_complex() else None, non_blocking)
2025-04-02 17:35:44 heygem-f2f  |   File "/usr/local/python3/lib/python3.8/site-packages/torch/cuda/__init__.py", line 302, in _lazy_init
2025-04-02 17:35:44 heygem-f2f  |     torch._C._cuda_init()
2025-04-02 17:35:44 heygem-f2f  | RuntimeError: Unexpected error from cudaGetDeviceCount(). Did you run some cuda functions before calling NumCudaDevices() that might have already set an error? Error 500: named symbol not found

系统环境 : NVIDIA 3060 TI cuda 118 驱动器版本 572.83

paizero avatar Apr 02 '25 09:04 paizero

从日志最后一行看,cudaGetDeviceCount错误通常是由于 CUDA 的版本与当前系统的 GPU 不兼容引起的。通过以下步骤应该能解决:

  1. nvidia-smi命令: 宿主机上执行nvidia-smi,确认命令能否正常执行。若能正常执行,则跳到步骤2;若无法执行,根据下面方法尝试解决: a. 重启电脑 b. 根据GPU显卡类型更换合适的显卡驱动,参考官网: https://www.nvidia.cn/geforce/drivers/ Image

2.确认cuda版本,容器中的pip依赖的cuda版本是11.8,建议宿主机的cuda版本要12.0以上,如果达标,则忽略,不达标则尝试升级,官网下载地址: https://developer.nvidia.com/cuda-toolkit-archive

Image

通过以上步骤,应该能解决这种

LegendaryM avatar Apr 03 '25 02:04 LegendaryM

same problem,报错信息相同。环境:nvidia3090,显卡驱动版本 572.83,CUDA版本12.8。

tomousw avatar Apr 03 '25 02:04 tomousw

same problem,报错信息相同。环境:nvidia3090,显卡驱动版本 572.83,CUDA版本12.8。

在国外社区看到同样的Pytorch错误,说是驱动版本太高了,在 554 版本以下才行。

paizero avatar Apr 03 '25 02:04 paizero

same problem,报错信息相同。环境:nvidia3090,显卡驱动版本 572.83,CUDA版本12.8。

在国外社区看到同样的Pytorch错误,说是驱动版本太高了,在 554 版本以下才行。

我本地是560版本,是可以正常跑的

LegendaryM avatar Apr 03 '25 02:04 LegendaryM

same problem,报错信息相同。环境:nvidia3090,显卡驱动版本 572.83,CUDA版本12.8。

方便尝试降一下cuda toolkit的版本呢,降到12.2

LegendaryM avatar Apr 03 '25 02:04 LegendaryM

same problem,报错信息相同。环境:nvidia3090,显卡驱动版本 572.83,CUDA版本12.8。

方便尝试降一下cuda toolkit的版本呢,降到12.2

尝试过了,cuda toolkit降到12.2,然后驱动尝试降回561.09以及552.22,都无效。

tomousw avatar Apr 03 '25 03:04 tomousw

same problem,报错信息相同。环境:nvidia3090,显卡驱动版本 572.83,CUDA版本12.8。

在国外社区看到同样的Pytorch错误,说是驱动版本太高了,在 554 版本以下才行。

尝试过了,cuda toolkit降到12.2,然后驱动尝试降回561.09以及552.22,都无效。

tomousw avatar Apr 03 '25 03:04 tomousw

same problem,报错信息相同。环境:nvidia3090,显卡驱动版本 572.83,CUDA版本12.8。

在国外社区看到同样的Pytorch错误,说是驱动版本太高了,在 554 版本以下才行。

尝试过了,cuda toolkit降到12.2,然后驱动尝试降回561.09以及552.22,都无效。

截图看看nvidia-smi的信息

LegendaryM avatar Apr 03 '25 05:04 LegendaryM

same problem,报错信息相同。环境:nvidia3090,显卡驱动版本 572.83,CUDA版本12.8。

在国外社区看到同样的Pytorch错误,说是驱动版本太高了,在 554 版本以下才行。

尝试过了,cuda toolkit降到12.2,然后驱动尝试降回561.09以及552.22,都无效。

截图看看nvidia-smi的信息

Image Image Image

当前配置下,报错信息与之前有区别,当前为runtimeerror:no cuda gpus are available,具体见上图。 nvidia-smi信息见上图。

tomousw avatar Apr 03 '25 08:04 tomousw

same problem,报错信息相同。环境:nvidia3090,显卡驱动版本 572.83,CUDA版本12.8。

在国外社区看到同样的Pytorch错误,说是驱动版本太高了,在 554 版本以下才行。

尝试过了,cuda toolkit降到12.2,然后驱动尝试降回561.09以及552.22,都无效。

截图看看nvidia-smi的信息

Image Image Image

当前配置下,报错信息与之前有区别,当前为runtimeerror:no cuda gpus are available,具体见上图。 nvidia-smi信息见上图。

你用的是docker desktop版本吧,如果是,不要使用win版docker,直接在wsl ubuntu中安装ubuntu(自行百度),再安装cuda-toolkit,nvidia-container-toolkit,后续如果还有问题,请发文。。。

yuanli-wan avatar Apr 04 '25 00:04 yuanli-wan

same problem,报错信息相同。环境:nvidia3090,显卡驱动版本 572.83,CUDA版本12.8。

在国外社区看到同样的Pytorch错误,说是驱动版本太高了,在 554 版本以下才行。

尝试过了,cuda toolkit降到12.2,然后驱动尝试降回561.09以及552.22,都无效。

截图看看nvidia-smi的信息

Image Image Image 当前配置下,报错信息与之前有区别,当前为runtimeerror:no cuda gpus are available,具体见上图。 nvidia-smi信息见上图。

你用的是docker desktop版本吧,如果是,不要使用win版docker,直接在wsl ubuntu中安装ubuntu(自行百度),再安装cuda-toolkit,nvidia-container-toolkit,后续如果还有问题,请发文。。。

按照您的引导终于解决了,应该是因为我这台计算机安装的dockerdesktop版本较低,对容器内使用GPU的功能集成不够完善,新版本dockerdesktop可以很方便启动。 解决过程相当艰辛,不过学到了很多,包括wsl导入导出ext4.vhdx操作、配置端口转发、修改yml配置挂载路径等等...再次表示感谢!

tomousw avatar Apr 07 '25 13:04 tomousw

我找了一台3060 ti的,Driver Version: 560.94 CUDA Version: 12.6 这种配置是可以正常跑的,本机上不用装nvcc命令 docker desktop: https://desktop.docker.com/win/main/amd64/Docker%20Desktop%20Installer.exe?utm_source=docker&utm_medium=webreferral&utm_campaign=dd-smartbutton&utm_location=module&_gl=1p5w9h2_gcl_auMzc2NDg1MzU1LjE3NDQwMDYzMDk._gaNjY1NjMyNDM1LjE3NDQwMDYzMDk._ga_XJWPQMJYHQ*MTc0NDAwNjMwOC4xLjEuMTc0NDAwNjkwNi42MC4wLjA.

Image

Image

Image

LegendaryM avatar Apr 08 '25 02:04 LegendaryM

我找了一台3060 ti的,Driver Version: 560.94 CUDA Version: 12.6 这种配置是可以正常跑的,本机上不用装nvcc命令 docker desktop: https://desktop.docker.com/win/main/amd64/Docker%20Desktop%20Installer.exe?utm_source=docker&utm_medium=webreferral&utm_campaign=dd-smartbutton&utm_location=module&_gl=1p5w9h2_gcl_auMzc2NDg1MzU1LjE3NDQwMDYzMDk._gaNjY1NjMyNDM1LjE3NDQwMDYzMDk._ga_XJWPQMJYHQ*MTc0NDAwNjMwOC4xLjEuMTc0NDAwNjkwNi42MC4wLjA.

Image

Image

Image

新版本docker desktop几乎是一键启动,甚至不需要不需要CUDAtoolkit以及nvidiacontainertoolkit,不过如果win版本低于19044,是没办法安装4.33.1以及以上版本的docker desktop的;要是不想升级win版本,就只能在wsl的distro里手动安装docker以及其他各种配置...

tomousw avatar Apr 08 '25 03:04 tomousw