ZTurboX

[email protected]

Results 50 comments of


                                            ZTurboX

篇章级nlp任务

> 有厂内同学使用pipeline serving部署过TTS（Text to Speech）。大致的思路如下：有2个模块构成TTS服务：前端模块 + pipeline serving。前端模型将段落划分为多个句子，多线程请求Serving服务，Serving使用多进程并发处理，将全部推理结果返回后，由前端模块生成语音效果。 > > 由于模型要保密，并没有开源，可参考思路试了一下，多线程请求会报错 ![image](https://user-images.githubusercontent.com/5669444/151125165-0022b241-c2a8-4aa3-b6fa-6d6008e89fa9.png) ` def tags_predict(self, batch_texts): feed = {} for i, item in enumerate(batch_texts): feed[str(i)] = item ret =...

pipline client

> 包一层flask接口的目的是什么？ server只是用来部署服务的，client返回的模型输出用来处理业务层逻辑代码，flask接口用于外部调用

增值税发票结构化识别

> * 用第一种方法，ocr检测结果会把单元格内的多行文本分开

表格结构识别在识别中文表格时的准确性

> 使用中文表格数据重新训练是可以提升效果的。最近PP-Structurev2在研发中，也会对算法有一个升级，欢迎持续关注。可以在开源的模型基础上，用中文数据微调吗

多卡部署

> 每个卡起一个server，再做负载均衡。请问有案例吗

[Question]: rocketqa-para-encoder和rocketqa-query-encoder区别

> 一个是对query进行编码，另一个是对段落进行编码场景是query去匹配段落，建议用哪个呢

多卡部署

> 请问你做到了吗？你现在的并行部署方案是啥啊每张卡单独起个服务，用nginx做负载均衡

add api_stream,return the response of the stream_chat by asynchronously

> 1、经测试，model.stream_chat可以并发 2、api_stream.py里是开新线程调用model.stream_chat的 3、从客户端来看，是可以并发返回请求的 4、如果有多张卡，可以用CUDA_VISIBLE_DEVICES指定GPU，将api_stream起到不同的端口上，考虑到同一个IP推理一个问题要对应到一个应用上，可以用haproxy、nginx等工具代理后端服务用gunicorn部署，起2个worker，客户端请求一次服务端会同时响应两次结果

add api_stream,return the response of the stream_chat by asynchronously

> 我这种机制有缺点，workers应该是起了两个python进程，前后两次的请求由于没有session保持，且两个进程的缓存之间没有内存共享，所以出来两个结果。对于这种类似于有状态的应用，建议用haproxy之类的能做session保持的代理工具分发流量用ngnix可以做吗

Onnx Support for BGE-M3

> > > Hi, I just published ONNX version with scripts to do the ONNX conversion here: https://huggingface.co/aapot/bge-m3-onnx > > > > > > Thanks for your work. It seems...

‹
1
2
3
4
5
›