- file: 用于下面加载python function用。
- download: 指明下载的处理函数。
- downdir: 未指明下载函数时以文件名下载到该目录。注意,同名文件会互相覆盖。
- result: 指明结果数据的处理函数。
- disable_robots: disable robots limitation.
- headers: default headers.
- timeout: timeout setup
- interval: crawl-delay * not support yet
- name: 使用callto指令,提交一个链接的时候可以同时指明用于处理的配置。
- desc:
- sitemap: download a sitemap and add all them into queue. txt filter and link filter can be used.
- parsers: ...
- lxml: 使用request下载内容,使用lxml.html解析,然后调用后面所指定的python函数。并且将结果一并传递。
- download: 将url下载,使用指定函数处理。如果指定函数为空,使用config中的download函数进行存储。
- http: 使用request下载内容,然后调用后面所指定的python函数。并且将结果一并传递。
- url: 将url直接传递给后面所指定的python函数,没有下载行为。用户可以自行选择下载方式。
- result: result function.
有关python函数的指定,请看api。
这是基础parser,用于处理html对象。这里的内容既可以用于link处理也可以用于result处理。但是必须保证对象为html,否则会在lxml解析时出错。
- css: 一个css选择器,选中一组内容。
- xpath: 一个xpath选择器,选中一组内容。
- attr: 获得选中节点的某个属性,例如href。
- text: 获得选中节点的文本内容。
- html: 获得选中节点的html源码。
- html2text: 将选中节点的html源码转换为text。
- regex: get a string from regex
以上头两个被成为source属性,指名处理哪个节点。后续的称为tostr,将节点转换为字符串。
这些是文本过滤器,可以辅助处理一些文本。
- is: 一个正则表达式,命中则通过。
- isnot: 一个正则表达式,不命中才通过。
- map: map source node, s to node, s. pass if s is False
- dictreplace: 一个列表,里面两个元素。第一个会被按正则解析,并且匹配出一些命名结果。这些结果会被送入第二个做字符串format合成。
- call: 使用callto指定的name执行该link的解析。
- headers: request headers
- method: GET/POST/PUT...