smartdns icon indicating copy to clipboard operation
smartdns copied to clipboard

短时间内随机性断网

Open No06 opened this issue 2 years ago • 25 comments

问题现象
短时间内随机性断网,基本都在5~20分钟内,之前可能要几小时断一次 尝试升级、重置固件无果,作为上游或重定向无果,全切换Doh & Dot至udp无果,log也看不到致错,进程也无崩溃现象

运行环境

  1. 固件型号
    OpenWrt R22.5.5 / LuCI Master (git-22.121.65028-2a5da72)

  2. 运营商
    中国移动

重现步骤

  1. 上游DNS配置。

119.29.29.29 1.2.4.8 114.114.114.114 dns.alidns.com https://1.0.0.1/dns-query dns.google 208.67.222.222

  1. 访问的域名。
    不定

信息收集

  1. 将/var/log/smrtdns.log日志作为附件上传。
    smartdns.log

  2. 如进程异常,请将coredump功能开启,上传coredump信息文件。
    在自定义界面,开启设置->自定义设置->生成coredump配置,重现问题后提交coredump文件 coredump文件在/tmp目录下

No06 avatar May 16 '22 15:05 No06

仅在断网前看到系统日志这段,路由器是用的无线桥接模式 Mon May 16 23:22:00 2022 daemon.notice hostapd: wlan1: BEACON-REQ-TX-STATUS ba:2c:ab:0f:62:68 20 ack=1 Mon May 16 23:22:01 2022 daemon.notice hostapd: wlan1: BEACON-RESP-RX ba:2c:ab:0f:62:68 20 00 809d6790cb4d2ce85400640000da23d4ee07649dd2000000000001d1e435f6c10200000064001110000c4f70656e5772742d352e384701088c129824b048606c03019d070a555320640c1e95051e0030140100000fac040100000fac040100000fac08cc000b050100150000460572000000003b0280002d1aef091bffff0000000000000000000001000000000000000000003d169d0504000000000000000000000000000000000000007f080400080201000140bf0cb2598933faff0000faff0000c005019b00fcffc304023c3c3cf40120dd180050f2020101810003a4000027a4000042435e0062322f00

No06 avatar May 16 '22 15:05 No06

断网的现象也比较奇怪,玩游戏的时候瞬间中断,但又没断,人不受控制,但是这时如果受攻击还能接受反馈,包括挂的语音也能听到声,但我没法发话,接着过几秒语音和游戏才会完全断开

No06 avatar May 16 '22 15:05 No06

看日志像是有两个独立的问题。一是设备本身断网,二是smartdns作为dnsmasq的上游。 建议不要这么用,smartdns作为dnsmasq的上游会出现奇怪的问题

PikuZheng avatar May 16 '22 23:05 PikuZheng

看日志像是有两个独立的问题。一是设备本身断网,二是smartdns作为dnsmasq的上游。 建议不要这么用,smartdns作为dnsmasq的上游会出现奇怪的问题

日志我忘记清了,断网那是当时我在做调试,我后面是用的重定向,我晚点再传一次完整的log

No06 avatar May 17 '22 02:05 No06

断网的现象也比较奇怪,玩游戏的时候瞬间中断,但又没断,人不受控制,但是这时如果受攻击还能接受反馈,包括挂的语音也能听到声,但我没法发话,接着过几秒语音和游戏才会完全断开

游戏是因为有预测机制,然后彻底网断后会回滚进度。 另一方面dns断不会导致游戏断,由于缓存

PikuZheng avatar May 17 '22 02:05 PikuZheng

断网的现象也比较奇怪,玩游戏的时候瞬间中断,但又没断,人不受控制,但是这时如果受攻击还能接受反馈,包括挂的语音也能听到声,但我没法发话,接着过几秒语音和游戏才会完全断开

游戏是因为有预测机制,然后彻底网断后会回滚进度。 另一方面dns断不会导致游戏断,由于缓存

所以我一开始发现断网的时候并不是去排查dns,而是在各种调试之后得出的,只要没开smartdns就不会出现,包括开adg或者pdnsd

No06 avatar May 17 '22 04:05 No06

很不能理解为什么会因为smartdns导致,这份log在将近44分的时候断网 smartdns.log

No06 avatar May 17 '22 04:05 No06

最近在 N1 旁路机器上用 SmartDNS 做解析,OW 居然也不定时断线,我得试试关掉是否是这个原因...

rampageX avatar May 17 '22 06:05 rampageX

很不能理解为什么会因为smartdns导致,这份log在将近44分的时候断网 smartdns.log

怀疑tcp半连接导致并发连接数满了,关闭tcp测速试试。另外icmp似乎前端有防火墙阻挡了

PikuZheng avatar May 17 '22 09:05 PikuZheng

出问题的时候,用dig,nslookup查询下域名看看是否工作。 还有可以在配置中指定address /openwrt.lan/[路由IP]看看,以及增加force-qtype-SOA 65

pymumu avatar May 17 '22 09:05 pymumu

出问题的时候,用dig,nslookup查询下域名看看是否工作。 还有可以在配置中指定address /openwrt.lan/[路由IP]看看,以及增加force-qtype-SOA 65

域名还是在工作,也增加了force-qtype-SOA 65

No06 avatar May 17 '22 12:05 No06

很不能理解为什么会因为smartdns导致,这份log在将近44分的时候断网 smartdns.log

怀疑tcp半连接导致并发连接数满了,关闭tcp测速试试。另外icmp似乎前端有防火墙阻挡了

关闭tcp测速还是不行

No06 avatar May 17 '22 12:05 No06

这次我在看log的过程中,看了差不多有5分钟,网突然自己恢复了

No06 avatar May 17 '22 12:05 No06

看log,没有看到特别的异常情况,只有

  1. ping功能无法工作,tcping工作,但测速是生效的。路由器里面ping下看看能否正常。
  2. TYPE65的查询记录。这个可以关闭,这个影响ios的查询速度。
  3. openwrt.lan的地址请求,这个不知道有什么影响。

3可能是问题,但不应该影响网络通断。

下次出问题的时候,看看

  1. 域名查询,ping功能是否正常。
  2. 出问题时在windows下执行ping www.baidu.com看是否正常。
  3. 连续ping一个固定的ip看看有无中断。

pymumu avatar May 17 '22 12:05 pymumu

看log,没有看到特别的异常情况,只有

  1. ping功能无法工作,tcping工作,但测速是生效的。路由器里面ping下看看能否正常。
  2. TYPE65的查询记录。这个可以关闭,这个影响ios的查询速度。
  3. openwrt.lan的地址请求,这个不知道有什么影响。

3可能是问题,但不应该影响网络通断。

下次出问题的时候,看看

  1. 域名查询,ping功能是否正常。
  2. 出问题时在windows下执行ping www.baidu.com看是否正常。
  3. 连续ping一个固定的ip看看有无中断。

ping功能不正常,刚刚挂路由器ping了1.1.1.1,会断但还会自己恢复 屏幕截图 2022-05-17 212225

No06 avatar May 17 '22 13:05 No06

恢复刚好是20分钟,这是为什么

No06 avatar May 17 '22 13:05 No06

3. openwrt.lan的地址请求

查询 openwrt.lan 是因为使用nslookup命令时,须先查询dns服务器的名称。这个不影响。

2. 运营商 中国移动

看到移动我突然想起来。您如果把移动猫改桥接了,可能会出现不时断网的问题(一般晚上9点到11点比较严重)。请问openwrt是主要路由器吗?上层是否还有其他路由器(比如ros)

PikuZheng avatar May 17 '22 13:05 PikuZheng

  1. openwrt.lan的地址请求

查询 openwrt.lan 是因为使用nslookup命令时,须先查询dns服务器的名称。这个不影响。

  1. 运营商 中国移动

看到移动我突然想起来。您如果把移动猫改桥接了,可能会出现不时断网的问题(一般晚上9点到11点比较严重)。请问openwrt是主要路由器吗?上层是否还有其他路由器(比如ros)

主路由,我这里是校园网

No06 avatar May 17 '22 13:05 No06

在恢复的时候看到系统日志有租约到期的消息,网络恢复会不会跟这有关 Tue May 17 21:24:12 2022 daemon.notice netifd: AP (21904): udhcpc: sending renew to server 10.248.0.1 Tue May 17 21:24:12 2022 daemon.notice netifd: AP (21904): udhcpc: lease of 10.240.141.129 obtained from 10.248.0.1, lease time 1800

No06 avatar May 17 '22 13:05 No06

在恢复的时候看到系统日志有租约到期的消息,网络恢复会不会跟这有关

目前还是感觉网络在上层被阻断,并发连接在一段时间内超过一定数量(也可能是同时计算tcp和icmp连接数量)触发的。 有没有试过关闭测速?另外在断网和恢复时,ping网关(10.248.0.1)是否可以通?ping内网其他设备(比如隔壁的电脑)是否可以通?

PikuZheng avatar May 17 '22 13:05 PikuZheng

ping 国内ip

pymumu avatar May 17 '22 13:05 pymumu

ping 国内ip

一样不行

在恢复的时候看到系统日志有租约到期的消息,网络恢复会不会跟这有关

目前还是感觉网络在上层被阻断,并发连接在一段时间内超过一定数量(也可能是同时计算tcp和icmp连接数量)触发的。 有没有试过关闭测速?另外在断网和恢复时,ping网关(10.248.0.1)是否可以通?ping内网其他设备(比如隔壁的电脑)是否可以通?

网关也不通,可能确实是让上层掐了

No06 avatar May 17 '22 13:05 No06

在恢复的时候看到系统日志有租约到期的消息,网络恢复会不会跟这有关

目前还是感觉网络在上层被阻断,并发连接在一段时间内超过一定数量(也可能是同时计算tcp和icmp连接数量)触发的。 有没有试过关闭测速?另外在断网和恢复时,ping网关(10.248.0.1)是否可以通?ping内网其他设备(比如隔壁的电脑)是否可以通?

网关也不通,可能确实是让上层掐了

有没有可能是某个网络服务程序崩溃造成的

No06 avatar May 17 '22 13:05 No06

有没有可能是某个网络服务程序崩溃造成的

服务崩溃和恢复会产生系统日志,严重的话甚至从pc连不上路由器了

PikuZheng avatar May 17 '22 13:05 PikuZheng

看日志像是有两个独立的问题。一是设备本身断网,二是smartdns作为dnsmasq的上游。 建议不要这么用,smartdns作为dnsmasq的上游会出现奇怪的问题

哈?不要作为上游?是选择重定向到smartdns吗?

frankilla1987 avatar May 18 '22 06:05 frankilla1987

最新版本验证,有问题reopen issue

pymumu avatar Oct 20 '22 12:10 pymumu