FATE-LLM
FATE-LLM copied to clipboard
Federated Learning for LLMs.
各位大佬好,想请假下,在fate中使用LLM训练GPT模型时,报以下错误,根据deepspeed的相关问题和解决,将其fp16禁止掉,但在fate中,将其fp16:{enable:False}后,还是报以下错误,想问下有遇到过这个问题的吗? 环境: 2台3090GPU机器,每台1块GPU。deepspeed==1.13.1 
各位大佬好,想请问下,fate中使用的哪个千问模型?我使用Qwen-7B和Qwen1.5-7B,都无法正常跑起来。使用ChatGLM3-6B是可以正常训练的。
运行ChatGLM-6B报错误后(错误信息见issue-运行tutorial中的ChatGLM-6B报grpc错误),发现VGPU-CORE资源不足,但是eggroll的dashboard展示的可分配VGPU-CORE资源数量是正常的。 到mysql中手动修改node 和processor manage表,将deepspeed任务pre-allocated的VGPU-CORE记录清除,才能重新提交任务。 清楚后可以分配到资源,但是visibleCudaDevices又变成-1了,使用nvidia-smi查看GPU是正常的,执行非FATE的GPU训练任务也能正常执行。
运行tutorial中的ChatGLM-6B报GRPC错误,求助各位大佬们指导,多谢多谢 安装用的是:AnsibleFATE_2.1.0_LLM_2.0.0_release_offline.tar.gz,host、guest全部都是按照默认安装配置 报错信息如下:  