weiminw

Results 14 comments of weiminw

hope this feature release as soon as possible.

@wenfengwang Do you get the solution at last. or Is there way to get full content when user input word "continue"?

32B-Chat-AWQ 在A100 40G上跑 回复差不多相同的内容,时间大约是20秒, 14B-Chat-AWQ 在4090 24G上跑, 回复差不多6秒内. 是不是我需要做什么配置才能让32B-Chat-AWQ 推理速度快一些?

我能想到的使用流程大概是这样的, 对原始的文档, 通过BGE-M3 进行向量化, 由于M3 可以同时返回dense 和 sparse embeding. 将两种向量同时存入miluvs中不同的列, 检索的时候, 使用M3 将query同时向量化dense和sparse 同时进行检索. 获得dense+ sparse 再进行rerank. 这个思路是否正确?

非常感谢您的回复,祝新年快乐,bge越来越好

> 您好,多语言在开发中,大概还有1个月的时间发布下一版本。 多语言版本是否有了? 请问是哪一个呢? 期待您的回复

need Chinese support

> 这是因为目前的Yi-Chat模型暂不支持funcation call 我在prompt中提示,如果没有工具,则直接回答,好像34bchat 没有完全遵从prompt。如何能让34bchat能严格遵从指令呢

同求Yi-34B-200K-Chat 4bits 模型。 万分感激