FATE-LLM issues

ChatGLM-6B模型训练问题

1

各位大佬好，想请假下，在fate中使用LLM训练GPT模型时，报以下错误，根据deepspeed的相关问题和解决，将其fp16禁止掉，但在fate中，将其fp16:{enable:False}后，还是报以下错误，想问下有遇到过这个问题的吗？环境： 2台3090GPU机器，每台1块GPU。deepspeed==1.13.1 ![image](https://github.com/FederatedAI/FATE-LLM/assets/19503929/5f223ad8-bf6e-41d9-a975-0a43c49047aa)

zapjone

FATE-LLM Qwen模型问题

1

各位大佬好，想请问下，fate中使用的哪个千问模型？我使用Qwen-7B和Qwen1.5-7B，都无法正常跑起来。使用ChatGLM3-6B是可以正常训练的。

zapjone

运行ChatGLM-6B报错误后VGPU-CORE资源不释放

2

运行ChatGLM-6B报错误后（错误信息见issue-运行tutorial中的ChatGLM-6B报grpc错误），发现VGPU-CORE资源不足，但是eggroll的dashboard展示的可分配VGPU-CORE资源数量是正常的。到mysql中手动修改node 和processor manage表，将deepspeed任务pre-allocated的VGPU-CORE记录清除，才能重新提交任务。清楚后可以分配到资源，但是visibleCudaDevices又变成-1了，使用nvidia-smi查看GPU是正常的，执行非FATE的GPU训练任务也能正常执行。

LillianXu00

运行tutorial中的ChatGLM-6B报GRPC错误

运行tutorial中的ChatGLM-6B报GRPC错误，求助各位大佬们指导，多谢多谢安装用的是：AnsibleFATE_2.1.0_LLM_2.0.0_release_offline.tar.gz，host、guest全部都是按照默认安装配置报错信息如下： ![IMG_20240524_090730_edit_263428382654074_resized_20240524_090943824](https://github.com/FederatedAI/FATE-LLM/assets/170686938/0632b448-61fb-4f22-b318-739d9f83ae33) ![IMG_20240524_090224_edit_263482122643649_resized_20240524_090943724](https://github.com/FederatedAI/FATE-LLM/assets/170686938/81a48ca3-8152-436c-8fee-55bfd346e6f3)

LillianXu00

FATE-LLM
FATE-LLM copied to clipboard

Metadata

ChatGLM-6B模型训练问题

FATE-LLM Qwen模型问题

运行ChatGLM-6B报错误后VGPU-CORE资源不释放

运行tutorial中的ChatGLM-6B报GRPC错误

← Metadata

Owner

Metadata

FATE-LLM FATE-LLM copied to clipboard

Metadata

ChatGLM-6B模型训练问题

FATE-LLM Qwen模型问题

运行ChatGLM-6B报错误后VGPU-CORE资源不释放

运行tutorial中的ChatGLM-6B报GRPC错误

← Metadata

Owner

Metadata

FATE-LLM
FATE-LLM copied to clipboard