guiniao
guiniao
你好,基于k8s集群的kubeflow分布式搭建教程有吗,国内很多镜像拉不了
kind搭建的k8s不是集群,请问是哪里出问题了吗
一台双3090的服务器,moss_gui_demo.py中设置了os.environ['CUDA_VISIBLE_DEVICES']='0,1',但是通过nvidia-smi查看,只有一张卡被利用推理,导致显存不够,推理不出来,但实际还有一张卡没有利用,有遇到过类似问题吗
在centos上部署好,运行moss_gui_demo.py,已经提示Running on local URL: http://127.0.0.1:7860,但是网页打开,显示无法访问
使用moss-moon-003-sft-int4,单卡推理,显卡内存随着推理,慢慢占满,怎样设置,推理完一个问题后, 释放显卡内存
3090卡在线推理,前面几个问题,推理时间虽然长点,能出结果,随着问题的增加,显存溢出,不是一个问题推理完后,显存自动释放吗,有好解决方案吗。 难道问的问题越多,显存占用越多,不释放,那不是再好的配置,随着问题的增多,显存越来越少。
### Is your feature request related to a problem? Please describe. 随着提问的问题的增多,GPU内存占用也会增加,内存会溢出,有没有办法,每次推理完成后,释放下内存,我使用torch.cuda.empty_cache()不起作用。 ### Solutions 怎么修改代码,可以在推理内存满了后,释放下内存,继续推理 ### Additional context _No response_
### Is there an existing issue for this? - [X] I have searched the existing issues ### Current Behavior 使用ptuning微调时报错,AttributeError:'Seq2SeqTrainer' object has no attribute 'is_deepspeed_enabled' ### Expected Behavior _No response_...
查询图数据中所有数据并返回,返回结果中,将有关系的节点放在一起返回,比如是一个数组,主要是一簇一簇的数据放在一起容易清洗。使用简单的 MATCH (n) -[e]-> (m) RETURN n,e,m,返回的结果是随机的,有关系的节点不在一起。使用group by好像也实现不了。请问雨哦其他方法吗
目前用的时qwen14b的模型,embedding模型是bge-large-zh-v1.5,环境是双卡A40,不管是llm对话,还是知识库问答,回答的都很慢,有比较好的方法,可以加快推理速度吗