glide-the

Results 57 comments of glide-the

I also encountered this problem, which occurred randomly,

默认启动的ip应该是0.0.0.0你这里修改了监听host,尝试修改回0.0.0.0,使用localhost:7860访问

参考如下代码 ``` # model_path = "/media/gpt4-pdf-chatbot-langchain/text-generation-webui/models/chatglm-6b/" # # 加载预训练模型和分词器 # tokenizer= AutoTokenizer.from_pretrained( # model_path, local_files_only=True, trust_remote_code=True) # model = AutoModel.from_pretrained( # model_path, local_files_only=True, trust_remote_code=True) model_path = "/media/gpt4-pdf-chatbot-langchain/text-generation-webui/models/llama-7b-hf/" tokenizer = LlamaTokenizer.from_pretrained(model_path)...

first run docker build ,build images after to run container

show reviewer on what to do?

感谢大家对这个问题的关注,目前社区里对并行调用没有比较完美的解决方案, 在dev的c4ee36b8ac629cf53fa86346b250e626a30e0dc7这次的版本中,我们尝试了使用异步线程队列加上收集器来完成并行调用,主线程用来收集,子线程处理任务,这样就可以保持每个线程的任务,**这个代码不要用在生产哦**,会存在的bug就是子线程会被挂起,直到服务器线程被全部占用, 当然这个问题也可以解决,如果你需要结束子线程,你需要在子线程结束的时候put一个停止标识,里面是有一个ListenerToken的定义的,需要在模型那里定义个listenerToken收集,这样就可以判断每个模型的每次预测停止时间了 大家如果有更好的方案可以提个pr

这个问题应该指定allowCredentials参数,而不是修改Origins,此问题可以在 下方说明了https://github.com/tiangolo/fastapi/issues/1663#issuecomment-1416750667 必须声明可以访问 api 端点的客户端的 url,并且还必须在每个请求的响应中声明哪个客户端可以接收响应

增加--lora-dir 和--lora参数

这个是启动参数,lora-dir是存放的位置,lora是使用存放位置的哪个 例如/lora-dir/adapter-1 启动命名参数将为--lora-dir /lora-dir --lora adapter-1