Results 2 repositories owned by JFanZhao

feature_extraction

18
Stars
9
Forks
Watchers

文本特征提取算法,卡方校验(chi-square)和信息增益算法提取文本特征算法实现

spider

223
Stars
154
Forks
Watchers

使用java+httpclient+httpcleaner,多线程、分布式爬去电商网站商品信息,数据存储在hbase上,并使用solr对商品建立索引,使用redis队列存储一个共享的url仓库;使用zookeeper对爬虫节点生命周期进行监视等。