`
高军威
  • 浏览: 175647 次
  • 性别: Icon_minigender_1
  • 来自: 北京
社区版块
存档分类
最新评论

jsoup 网络爬虫 基础文档

阅读更多
jsoup 简介:http://871421448.iteye.com/blog/1545996

jsoup API 文档:http://jsoup.org/apidocs/

jsoup Jar包下载:http://jsoup.org/download

示例1:http://blog.csdn.net/withiter/article/details/15339579

示例2:http://blog.csdn.net/huzhengnan/article/details/22883383

使用JSOUP实现网络爬虫,网络专栏:http://blog.csdn.net/column/details/jsoup.html


htmlunit是一款开源的java 页面分析工具,读取页面后,可以有效的使用htmlunit分析页面上的内容。项目可以模拟浏览器运行,被誉为java浏览器的开源实现。这个没有界面的浏览器,运行速度也是非常迅速的。htmlunit采用的是rhino作为javascript的解析引擎。

gecco 1.0.5 发布了,gecco 是易用的轻量化网络爬虫。

主要改进:

1、修复redirect的相对url的bug

2、增加了支持htmlunit的插件

3、增加抓取JD全部商品的demo

下载地址:
https://github.com/xtuhcy/gecco/archive/1.0.5.zip
https://github.com/xtuhcy/gecco/archive/1.0.5.tar.gz
分享到:
评论

相关推荐

Global site tag (gtag.js) - Google Analytics