网络爬虫引擎-simspider
2015-03-08 08:54:11 阿炯

simspider是国人开发的一个轻巧的跨平台的网络爬虫引擎,它提供了一组C函数接口用于快速构建你自己的网络爬虫应用,同时也提供了一个可执行的爬虫程序用于演示函数接口如何使用,采用LGPL协议授权。


simspider只依赖于第三方函数库libcurl。

simspider目前支持平台:
*UNIX/Linux
*WINDOWS

simspider函数接口非常容易使用,主流程如下:
*创建爬虫引擎环境
*设置爬虫引擎环境
*从入口网址递归爬取所有网页
*销毁爬虫引擎环境

有大量的可选选项用于定制你的爬虫引擎环境,包含但不限于下列:
*设置请求队列空间大小
*设置感兴趣的文件扩展名集合
*是否允许文件扩展名为空
*是否允许爬出当前网站
*设置最大递归深度
*设置HTTPS证书文件名
*设置爬取间隔时间
*设置爬取最大并发数量

simspider爬虫引擎实现了一个灵活的流程框架,提供了相当丰富的回调函数指针给予爬虫应用设计者想要在爬取的任何时间点加入自己自定义的处理逻辑,包含但不限于下列:
*构建HTTP请求头时
*构建HTTP请求体(往往是POST内容)时
*获取到HTTP响应头时
*获取到HTTP响应体(往往是HTML)时
(在以上4个回调函数中,爬虫应用设计者可以使用另外一批simspider函数接口得到上层网址、当前网址、响应码、递归深度、CURL对象以及HTTP缓冲区等信息)
*爬取完成后检阅完成队列


最新版本:2.2
修正了入口网址的内部自动补全问题,修正了删除请求队列后没有重置结果指针的安全编码问题,修正了WINDOWS平台的编译问题。

项目主页:http://git.oschina.net/calvinwilliams/simspider