Yunbin Liu
Yunbin Liu
在 HTTP 请求报文中,请求行,请求头部,空行都是必有的,如果不读取,会留在缓存区吧。
waitpid 是为了回收子进程使用的资源,为了防止出现僵尸进程吧,等子进程结束之后才会调用它吧, `while (read(cgi_output[0], &c, 1) > 0)` 主进程还在与子进程交互。
以上数据已在仓库中添加
 data/ip2region.xdb和 data/ip.merge.txt 貌似不是同步的, 我跑 benchmark 会出错 
> 编码是GBK。也url改为了2022年。但是中文省市县名字是不像乱码的乱码。求解。 好像爬取2016的又没问题。 2020 以后使用的是 UTF-8 编码, 2020 及以前使用的是 GBK 编码
我觉得也应该是这个 bound=max{V-sum{c[i..n]},c[i]}
主要考虑到 1. 便于 多个进程 或 线程 或 请求 共享数据 2. 便于以后通过 redis 扩展位域信息
直接用地理坐标信息修改 data/ip.merge.txt 即可
> > 问题: 请问, 有什么好办法能高效并且准确生成行政区的变更情况吗? 能分享一下相关的思路吗? > > 抱歉我刚看见这个PR,我们在库中有自动生成的脚本,会自动生成大部分的区划变更。 对于部分异常,我们是手动加入的。 @jianghc724 parse-diff.sh 这个能改成增量生成吗, 否则每次都得核对所有年份的所有数据 主要这里 https://github.com/lizy14/division-changes/blob/feb009da246a7a835a95d5c5555563c78d19588c/scripts/parse-diff.py#L50
> > > > 问题: 请问, 有什么好办法能高效并且准确生成行政区的变更情况吗? 能分享一下相关的思路吗? > > > > > > > > > 抱歉我刚看见这个PR,我们在库中有自动生成的脚本,会自动生成大部分的区划变更。 对于部分异常,我们是手动加入的。 > > > > > > @jianghc724 parse-diff.sh 这个能改成增量生成吗, 否则每次都得核对所有年份的所有数据 主要这里...