保留第一条的系统消息(prompt)和最近10次对话(20条)的信息,发给服务器用于处理上下文,其余的不发,这样能很大程度避免触发 4096 的 token 限制,同时又有很棒的上下文处理能力,节约资源。
依赖库chatgpt已经处理了超过4096的限制,你说的策略不错但是如何保证适合所有人呢?
你要找的是不是:我的fork
@WenJing95 👍
这个不错