利用Node.js爬取裁判文书网的数据
多进程爬虫利用redis作为任务队列
本项目仅为学习使用,未大规模尝试爬取
node > v8.0
mysql
redis
首先clone本项目
在config文件夹中的config.js中配置
proxy.address 为代理IP提供商地址,因为爬取裁判文书网必须有代理,不然封禁IP是一定的
search.param 为要搜索的参数内容,请按照格式填写
database 为数据库配置,本项目采用mysql
不用在config中配置param,在multi_process.js中配置请求参数队列,params数组即为参数队列
其他配置如上
npm install
npm start
npm run multi
npm run clean
config/ -----配置文件
data/ -----全国法院列表
db/ ------数据库配置
proxyPool/ ------代理池,为了加快代理获取速度
util/ ------工具集,包括提取文书信息的工具
index.js -----项目主文件
multi_process.js ------多进程版本主文件
son_getDoc.js ------子进程,用于获取文书全文
son_getList.js ------子进程,用于获取文书列表
wenshu.sql ------所需建的表
cutWord.py --------分词所用的脚本
- 完善的日志系统
- 错误警报