Results 16 comments of jia

> @netjia-cpu 可以尝试打 #1817 这个patch试下 ,或者升级brpc版本 多谢,我试一下

> 请问“网络重启故障”具体是指什么呢?是如何注入的?我们也遇到了这个问题,client一直返回E112,直到重启才恢复,持续时间最长的client大约是40分钟。 就是执行 service network restart,复现的概率比较低,但是一旦出现了,只有重启进程才能恢复,看代码应该是Socket管理的bug,那个地方很多原子操作,非常复杂

我升级到了brpc1.4版本,依然没有解决这个问题,不断注入网络故障:ifconfig down/up bond的一个口,又复现了

这个问题对目前的业务影响很大,比较头疼。我想到的办法是: 1.放弃使用brpc,改用grpc,但是grpc没brpc好,c++的grpc太臃肿了 2.改源码,把Socket类改写掉,去掉那一堆复杂的原子计数,用最简单的方式实现 3.应用层规避,brpc持续出现这个错误码,进程就自杀(把channel delete掉,重连,不知道是否有效果)

> > 这个问题对目前的业务影响很大,比较头疼。我想到的办法是: 1.放弃使用brpc,改用grpc,但是grpc没brpc好,c++的grpc太臃肿了 2.改源码,把Socket类改写掉,去掉那一堆复杂的原子计数,用最简单的方式实现 3.应用层规避,brpc持续出现这个错误码,进程就自杀(把channel delete掉,重连,不知道是否有效果) > > 问下现在连接类型是什么?短链接、长连接or连接池 是长链接

> > 第3点,应用层规避,这点应该解决不了问题,我们这边是每次都重新创建一个新的channel,但还是出现了这样的问题。 > > 试试重建channel的时候,设置不同的ChannelOptions::connection_group 这个方法有效,我用了后,没有再出了

> > 我升级到了brpc1.4版本,依然没有解决这个问题,不断注入网络故障:ifconfig down/up bond的一个口,又复现了 > > 请问你们网络故障注入的具体流程是怎样的,每次网络注入故障多久后恢复? 我们是bond4组网,ifconfig down/up bond的其中一个网口,注入故障10s内随机,一直循环10几个小时,最后恢复

> > > > 我升级到了brpc1.4版本,依然没有解决这个问题,不断注入网络故障:ifconfig down/up bond的一个口,又复现了 > > > > > > > > > 请问你们网络故障注入的具体流程是怎样的,每次网络注入故障多久后恢复? > > > > > > 我们是bond4组网,ifconfig down/up bond的其中一个网口,注入故障10s内随机,一直循环10几个小时,最后恢复 > > 请问在你们的环境中,大概多久能够复现呢? 一般来说,这样的故障跑一个晚上,第二天早上看,brpc基本会出问题。最快的时候见过,1-2个小时就出了。...