本人在业余时间编写了一个带GTK界面的简易爬虫程序。下载链接为:ht去掉中文tps://pan.baidu.com/s/1o9RlqMA。这是Windows 64bit版。
使用该软件需了解xpath的相关知识,可到w3chool学习了解相关内容:htt去掉中文p://http://www.w3school.com.cn/xpath/index.asp。
现在一说网络爬虫,几乎无一例外都是用python或node.js编写。用C语言编写的爬虫会怎样呢?我便在空闲时间编写了这个程序,用libsoup做http网页传输,用libxml2解析网页内容,Gtk做界面,无一例外都是GNU的C语言家伙,体现一下GNU套件的编程乐趣(面对各种坑其实并不快乐)。
编程效率,运行功耗方面我没有怎样去优化,但出来的效果也是相当满意,尤其是功耗方面,工作期间几乎感受不到其在工作(其实是本人宽带太慢,运行了4000个线程有近99%在等待网页回应,只有1%在工作,网页爬取工作不是人多力量大的,还要一个高速宽带)。
得益于libsoup对firefox的cookie文件的支持。程序可通过载入Mozilla兼容的sqlite格式的cookie数据文件(以firefox为例,文件名为cookies.sqlite,位置自己可以搜索一下),如果网页可以通过cookie保持登陆状态,先在网页保持登陆状态,然后可通过载入该cookie文件,使程序可以收集到有登陆限制的网页内容(或跳过用户登陆直接访问网页)。
还有其不能解析网页JavaScript程序,换句话说就是不能爬通过JavaScript生成的网页内容。
其它的里面有附有使用说明,欢迎各位板凳。



使用该软件需了解xpath的相关知识,可到w3chool学习了解相关内容:htt去掉中文p://http://www.w3school.com.cn/xpath/index.asp。
现在一说网络爬虫,几乎无一例外都是用python或node.js编写。用C语言编写的爬虫会怎样呢?我便在空闲时间编写了这个程序,用libsoup做http网页传输,用libxml2解析网页内容,Gtk做界面,无一例外都是GNU的C语言家伙,体现一下GNU套件的编程乐趣(面对各种坑其实并不快乐)。
编程效率,运行功耗方面我没有怎样去优化,但出来的效果也是相当满意,尤其是功耗方面,工作期间几乎感受不到其在工作(其实是本人宽带太慢,运行了4000个线程有近99%在等待网页回应,只有1%在工作,网页爬取工作不是人多力量大的,还要一个高速宽带)。
得益于libsoup对firefox的cookie文件的支持。程序可通过载入Mozilla兼容的sqlite格式的cookie数据文件(以firefox为例,文件名为cookies.sqlite,位置自己可以搜索一下),如果网页可以通过cookie保持登陆状态,先在网页保持登陆状态,然后可通过载入该cookie文件,使程序可以收集到有登陆限制的网页内容(或跳过用户登陆直接访问网页)。
还有其不能解析网页JavaScript程序,换句话说就是不能爬通过JavaScript生成的网页内容。
其它的里面有附有使用说明,欢迎各位板凳。


