MOSS
MOSS copied to clipboard
能不能支持stream_chat,现在在A100上做推理都很慢很慢
类似chatGLM,加上流式输出用户体验会好一点
已经准备照着chatGLM的方式手写一个stream_chat接口了,希望有大佬能看破我的逞强..
已经有人改了,参考这里https://github.com/OpenLMLab/MOSS/issues/112#issue-1680561586