guiniao issues

Results 20 issues of


                                            guiniao

设置两张卡，只使用了一张卡，导致显存溢出报错

一台双3090的服务器，moss_gui_demo.py中设置了os.environ['CUDA_VISIBLE_DEVICES']='0,1'，但是通过nvidia-smi查看，只有一张卡被利用推理，导致显存不够，推理不出来，但实际还有一张卡没有利用，有遇到过类似问题吗

网页demo运行，链接打不开

在centos上部署好，运行moss_gui_demo.py，已经提示Running on local URL: http://127.0.0.1:7860，但是网页打开，显示无法访问

推理时，显卡内存慢慢占满，怎么释放

使用moss-moon-003-sft-int4，单卡推理，显卡内存随着推理，慢慢占满，怎样设置，推理完一个问题后，释放显卡内存

推理占的显存不能释放吗，随着问题增多，显存溢出

3090卡在线推理，前面几个问题，推理时间虽然长点，能出结果，随着问题的增加，显存溢出，不是一个问题推理完后，显存自动释放吗，有好解决方案吗。难道问的问题越多，显存占用越多，不释放，那不是再好的配置，随着问题的增多，显存越来越少。

怎么释放GPU内存，使用torch.cuda.empty_cache()不起作用

### Is your feature request related to a problem? Please describe. 随着提问的问题的增多，GPU内存占用也会增加，内存会溢出，有没有办法，每次推理完成后，释放下内存，我使用torch.cuda.empty_cache()不起作用。 ### Solutions 怎么修改代码，可以在推理内存满了后，释放下内存，继续推理 ### Additional context _No response_

使用ptuning微调时报错

### Is there an existing issue for this? - [X] I have searched the existing issues ### Current Behavior 使用ptuning微调时报错，AttributeError：'Seq2SeqTrainer' object has no attribute 'is_deepspeed_enabled' ### Expected Behavior _No response_...

Return grouped query results

查询图数据中所有数据并返回，返回结果中，将有关系的节点放在一起返回，比如是一个数组，主要是一簇一簇的数据放在一起容易清洗。使用简单的 MATCH (n) -[e]-> (m) RETURN n,e,m，返回的结果是随机的，有关系的节点不在一起。使用group by好像也实现不了。请问雨哦其他方法吗

type/question

怎么增加推理速度，tokens生成速度

目前用的时qwen14b的模型，embedding模型是bge-large-zh-v1.5，环境是双卡A40，不管是llm对话，还是知识库问答，回答的都很慢，有比较好的方法，可以加快推理速度吗

bug

guiniao

基于k8s集群的kubeflow分布式搭建教程有吗

按照教程，kind搭建的k8s不是集群