C语言爬虫，用Gtk套件写的。

本人在业余时间编写了一个带GTK界面的简易爬虫程序。下载链接为：ht去掉中文tps://pan.baidu.com/s/1o9RlqMA。这是Windows 64bit版。
使用该软件需了解xpath的相关知识，可到w3chool学习了解相关内容：htt去掉中文p://http://www.w3school.com.cn/xpath/index.asp。
现在一说网络爬虫，几乎无一例外都是用python或node.js编写。用C语言编写的爬虫会怎样呢？我便在空闲时间编写了这个程序，用libsoup做http网页传输，用libxml2解析网页内容，Gtk做界面，无一例外都是GNU的C语言家伙，体现一下GNU套件的编程乐趣（面对各种坑其实并不快乐）。
编程效率，运行功耗方面我没有怎样去优化，但出来的效果也是相当满意，尤其是功耗方面，工作期间几乎感受不到其在工作（其实是本人宽带太慢，运行了4000个线程有近99%在等待网页回应，只有1%在工作，网页爬取工作不是人多力量大的，还要一个高速宽带）。
得益于libsoup对firefox的cookie文件的支持。程序可通过载入Mozilla兼容的sqlite格式的cookie数据文件（以firefox为例，文件名为cookies.sqlite，位置自己可以搜索一下），如果网页可以通过cookie保持登陆状态，先在网页保持登陆状态，然后可通过载入该cookie文件，使程序可以收集到有登陆限制的网页内容（或跳过用户登陆直接访问网页）。
还有其不能解析网页JavaScript程序，换句话说就是不能爬通过JavaScript生成的网页内容。
其它的里面有附有使用说明，欢迎各位板凳。

楼主牛C。有git么？

这是Linux下的截图。

楼主辛苦了，下载楼主的源码学习下。。。话说win下和gnux下的源码氏一样的么？

下载在gnux下解压出来，有两个gtk乱码.ecc文件。可能氏字符编码问题。
没瞧见源码，氏兵程和一堆动态库dll。。。

赞一下楼主，正在自学c，刚好看看楼主怎么写c代码的

现在透露一下新爬虫改写想法

：
1、新的程序通过WebkitGTK加载网页，然后运行相应的JavaScript代码获取网页内容，功耗时间增加了，但可以获取网页通过Ajax动态加载的内容。与此同时也有个坏消息要说的是，由于Msys2的WebkitGTK版本过低，程序只能在Linux上运行。
2、加强下载管理器的功能，让其可以按要求进行分类、更改保存路径、文件名增加前后继等功能，让下载东西不会像以前一样挤在一块。
3、尝试建立一个简易的检测器，可直观观测程序运行情况。
还有要说的是，东西改变得较多，最后能不能出来成品还是个未知数，
说个笑话：如果各位能捐献一下，出成品成功率会大点

，（前一代程序的“帮助->捐献”，就有本人的支付二维码）。
修改的下载管理器的效果图，欢迎来吐槽：

嗯，屮基本只用gnux系统。。。楼主的新程序开发的坏消息对屮没啥影响。
最近也在学点gtk编程玩下，所以对楼主的gtk程序实现感兴趣。
至于“捐赠”，那要看楼主的程序实用价值有多大了。
价值大，当然值得赞助，价值小，只能当作编程习作了解参考而而已。。。

扫二维码下载贴吧客户端

下载贴吧APP
看高清直播、视频！

14回复贴，共1页

<<返回gtk吧

分享到:

日	一	二	三	四	五	六