kksasa comments

Results 15 comments of


                                            kksasa

基于知识库的问答响应缓慢：每次提问都释放并重新加载模型

如何保持模型在内存中或立即卸载？默认情况下，模型在内存中保留5分钟后会被卸载。这样做可以在您频繁请求LLM时获得更快的响应时间。但是，您可能希望在5分钟结束之前释放内存或无限期保持模型加载。使用/api/generate和/api/chat API端点的keep_alive参数来控制模型在内存中保留的时间。 keep_alive参数可以设置为：一个持续时间字符串（例如"10m"或"24h"）一个以秒为单位的数字（例如3600）任何负数，将会无限期保持模型在内存中（例如-1或"-1m"） '0'，将在生成响应后立即卸载模型例如，要预加载模型并保留在内存中，请使用 curl -d '{"model": "llama3", "keep_alive": -1}' 要卸载模型并释放内存，请使用： curl -d '{"model": "llama3", "keep_alive": 0}' 或者，您可以通过在启动Ollama服务器时设置 OLLAMA_KEEP_ALIVE 环境变量来更改所有模型加载到内存中的时间。OLLAMA_KEEP_ALIVE 变量采用与上述keep_alive参数相同的参数类型。请参考上述说明如何配置Ollama服务器以正确设置环境变量。如果您想覆盖 OLLAMA_KEEP_ALIVE 设置，可以在/api/generate或/api/chat API端点使用...

kksasa

基于知识库的问答响应缓慢：每次提问都释放并重新加载模型

"Tables are not always formatted 100% correctly"

How to set the graphRAG with local ollama

How to remove a document from the database?

[REQUEST] - <title>WHY GraphRAG retriever only supports one file_id at a time

[REQUEST] - want to use own UI to call kotaemon. But did not find good way to call API way.

[REQUEST] - want to use own UI to call kotaemon. But did not find good way to call API way.

[REQUEST] - want to use own UI to call kotaemon. But did not find good way to call API way.

[REQUEST] - want to use own UI to call kotaemon. But did not find good way to call API way.

[BUG] - <title> No Module names 'Kotaemon'