hashen comments

Results 17 comments of


hashen

Building an API for GLM-130B

请问怎样用类似flask API代替interactive模式？我将GLM-10B的generate.py改成了API形式，但这里的”Please Input Query (stop to exit) >>>“这些提示貌似是在SwissArmyTransformer中，不知道如何改成API形式

> 请问怎样用类似flask API代替interactive模式？我将GLM-10B的generate.py改成了API形式，但这里的”Please Input Query (stop to exit) >>>“这些提示貌似是在SwissArmyTransformer中，不知道如何改成API形式您好，利用 generate.py 中的 fill_blanks 函数构建 API 即可，注意只在 0 号进程上启动 API Server。

Building an API for GLM-130B

> > 请问怎样用类似flask API代替interactive模式？我将GLM-10B的generate.py改成了API形式，但这里的”Please Input Query (stop to exit) >>>“这些提示貌似是在SwissArmyTransformer中，不知道如何改成API形式 > > 您好，利用 generate.py 中的 fill_blanks 函数构建 API 即可，注意只在 0 号进程上启动 API Server。 @Sengxian 请问构建服务后请求一直卡在filling_sequence，没有响应是什么问题呢？

Building an API for GLM-130B

> > For your alternative approach, you can only start the server on GPU 0 (by checking `torch.distributed.get_rank()`) and then use `torch.distributed.broadcast_object` to broadcast the information to other GPUs. >...

Building an API for GLM-130B

sorry,i just start the server successfully,but can’t inference properly. 在 2022年8月29日 ***@***.***> 写道： Hi @jiangliqin, I'm starting the server using this condition if torch.distributed.get_rank() == 0: and it dedicates my...

Building an API for GLM-130B

@Shahrukh-Alethea Hi,you develop the server and run the inference process properly?can you guide me?

Building an API for GLM-130B

卡在filling_sequence后的报错信息

Building an API for GLM-130B

> > 卡在filling_sequence后的报错信息 > > 您好，这个是因为通信超时导致的错误，我无法通过这个看出真正的报错信息。 @Sengxian 现象是在0卡启动服务，路由接受请求的处理也默认只是使用0卡资源，无法使用多卡

Building an API for GLM-130B

> > > > 卡在filling_sequence后的报错信息 > > > > > > > > > 您好，这个是因为通信超时导致的错误，我无法通过这个看出真正的报错信息。 > > > > > > 怎么把入口文件发您定位下问题呢？可以加微信吗？我的是hashenbb > > 您好，请加入我们的 [Slack 频道](https://join.slack.com/t/glm-130b/shared_invite/zt-1f2ih11xy-EAuDComTAr~XVB3MywE9Cg) 进行更详细的讨论，如果不方便分享文件的话可以在 Slack 中私信我...

Building an API for GLM-130B

@Sengxian 谢谢以上的耐心指导，请问量化后相应速度>10s,可以用FasterTransformer对量化后的模型进行加速推理吗？