Crawler-Parallel
Crawler-Parallel copied to clipboard

Published 20 hours ago •

→

Metadata

C语言并行爬虫（epoll），爬取服务器的16W个有效网页，通过爬取页面源代码进行确定性自动机匹配和布隆过滤器去重，对链接编号并写入url.txt文件，并通过中间文件和三叉树去除掉状态码非200的链接关系，将正确的链接...

Readme
Issues

crawler_parallel

make后执行： ./crawler 服务器ip地址端口号 url.txt

About

C语言并行爬虫（epoll），爬取服务器的16W个有效网页，通过爬取页面源代码进行确定性自动机匹配和布隆过滤器去重，对链接编号并写入url.txt文件，并通过中间文件和三叉树去除掉状态码非200的链接关系，将正确的链接...

21

Stars

8

Forks

Watchers

Owner

← Metadata

21

Stars

8

Forks

Watchers

Owner

Metadata

C语言并行爬虫（epoll），爬取服务器的16W个有效网页，通过爬取页面源代码进行确定性自动机匹配和布隆过滤器去重，对链接编号并写入url.txt文件，并通过中间文件和三叉树去除掉状态码非200的链接关系，将正确的链接...