WANGzeyao comments

Results 3 comments of


                                            WANGzeyao

请问部署tf serving 推断时间特别长可能的原因是什么呢？

> 推断时有用显卡么？还是纯cpu？seq2seq的解码本身是慢一些。你好，推断的时候用了V100的显卡。我的理解是beam search解码是在得到模型的输出后进行的。但是得到模型输出这个过程（通过向tf serving容器发送请求）就需要两秒多。比如说自动摘要的例子中，AutoTitle类里的predict函数： ``` start = time.time() r = requests.post('url地址',data=test_data_json,headers=headers) # 向部署了模型的tf serving发送请求以获得模型输出, end = time.time() print(end-start) out = np.array(json.loads(r.text)['outputs']) # 这里的out就等于原来的 model.predict([token_ids, segment_ids]) return out[:,1] ``` 最终打印出来的时间基本在两秒左右

请问部署tf serving 推断时间特别长可能的原因是什么呢？

测过，模型输入到输出大概是0.02秒

请问部署tf serving 推断时间特别长可能的原因是什么呢？

> > > 推断时有用显卡么？还是纯cpu？seq2seq的解码本身是慢一些。 > > > > > > 你好，推断的时候用了V100的显卡。我的理解是beam search解码是在得到模型的输出后进行的。但是得到模型输出这个过程（通过向tf serving容器发送请求）就需要两秒多。比如说自动摘要的例子中，AutoTitle类里的predict函数： > > ``` > > start = time.time() > > r = requests.post('url地址',data=test_data_json,headers=headers) # 向部署了模型的tf serving发送请求以获得模型输出, >...