Results 50 comments of ZTurboX

> 有厂内同学使用pipeline serving部署过TTS(Text to Speech)。大致的思路如下:有2个模块构成TTS服务:前端模块 + pipeline serving。前端模型将段落划分为多个句子,多线程请求Serving服务,Serving使用多进程并发处理,将全部推理结果返回后,由前端模块生成语音效果。 > > 由于模型要保密,并没有开源,可参考思路 试了一下,多线程请求会报错 ![image](https://user-images.githubusercontent.com/5669444/151125165-0022b241-c2a8-4aa3-b6fa-6d6008e89fa9.png) ` def tags_predict(self, batch_texts): feed = {} for i, item in enumerate(batch_texts): feed[str(i)] = item ret =...

> 包一层flask接口的目的是什么? server只是用来部署服务的,client返回的模型输出用来处理业务层逻辑代码,flask接口用于外部调用

> * 用第一种方法,ocr检测结果会把单元格内的多行文本分开

> 使用中文表格数据重新训练是可以提升效果的。最近PP-Structurev2在研发中,也会对算法有一个升级,欢迎持续关注。 可以在开源的模型基础上,用中文数据微调吗

> 每个卡起一个server,再做负载均衡。 请问有案例吗

> 一个是对query进行编码,另一个是对段落进行编码 场景是query去匹配段落,建议用哪个呢

> 请问你做到了吗?你现在的并行部署方案是啥啊 每张卡单独起个服务,用nginx做负载均衡

> 1、经测试,model.stream_chat可以并发 2、api_stream.py里是开新线程调用model.stream_chat的 3、从客户端来看,是可以并发返回请求的 4、如果有多张卡,可以用CUDA_VISIBLE_DEVICES指定GPU,将api_stream起到不同的端口上,考虑到同一个IP推理一个问题要对应到一个应用上,可以用haproxy、nginx等工具代理后端服务 用gunicorn部署,起2个worker,客户端请求一次服务端会同时响应两次结果

> 我这种机制有缺点,workers应该是起了两个python进程,前后两次的请求由于没有session保持,且两个进程的缓存之间没有内存共享,所以出来两个结果。对于这种类似于有状态的应用,建议用haproxy之类的能做session保持的代理工具分发流量 用ngnix可以做吗

> > > Hi, I just published ONNX version with scripts to do the ONNX conversion here: https://huggingface.co/aapot/bge-m3-onnx > > > > > > Thanks for your work. It seems...