hashen

Results 17 comments of hashen

请问怎样用类似flask API代替interactive模式?我将GLM-10B的generate.py改成了API形式,但这里的”Please Input Query (stop to exit) >>>“这些提示貌似是在SwissArmyTransformer中,不知道如何改成API形式

> 请问怎样用类似flask API代替interactive模式?我将GLM-10B的generate.py改成了API形式,但这里的”Please Input Query (stop to exit) >>>“这些提示貌似是在SwissArmyTransformer中,不知道如何改成API形式 您好,利用 generate.py 中的 fill_blanks 函数构建 API 即可,注意只在 0 号进程上启动 API Server。

> > 请问怎样用类似flask API代替interactive模式?我将GLM-10B的generate.py改成了API形式,但这里的”Please Input Query (stop to exit) >>>“这些提示貌似是在SwissArmyTransformer中,不知道如何改成API形式 > > 您好,利用 generate.py 中的 fill_blanks 函数构建 API 即可,注意只在 0 号进程上启动 API Server。 @Sengxian 请问构建服务后请求一直卡在filling_sequence,没有响应是什么问题呢?

> > For your alternative approach, you can only start the server on GPU 0 (by checking `torch.distributed.get_rank()`) and then use `torch.distributed.broadcast_object` to broadcast the information to other GPUs. >...

sorry,i just start the server successfully,but can’t inference properly. 在 2022年8月29日 ***@***.***> 写道: Hi @jiangliqin, I'm starting the server using this condition if torch.distributed.get_rank() == 0: and it dedicates my...

@Shahrukh-Alethea Hi,you develop the server and run the inference process properly?can you guide me?

卡在filling_sequence后的报错信息

> > 卡在filling_sequence后的报错信息 > > 您好,这个是因为通信超时导致的错误,我无法通过这个看出真正的报错信息。 @Sengxian 现象是在0卡启动服务,路由接受请求的处理也默认只是使用0卡资源,无法使用多卡

> > > > 卡在filling_sequence后的报错信息 > > > > > > > > > 您好,这个是因为通信超时导致的错误,我无法通过这个看出真正的报错信息。 > > > > > > 怎么把入口文件发您定位下问题呢?可以加微信吗?我的是hashenbb > > 您好,请加入我们的 [Slack 频道](https://join.slack.com/t/glm-130b/shared_invite/zt-1f2ih11xy-EAuDComTAr~XVB3MywE9Cg) 进行更详细的讨论,如果不方便分享文件的话可以在 Slack 中私信我...

@Sengxian 谢谢以上的耐心指导,请问量化后相应速度>10s,可以用FasterTransformer对量化后的模型进行加速推理吗?