评论走起

讲讲爬虫(使用webmagic)

公司需要爬取壁纸图片,用以作为app的资源 新做的壁纸app,还没上线,我想想好吧,那我就去爬吧, 我下午花了点时间研究了一下 , 首先我在gitee上找了找,选择了webmagic这个爬虫框架 接下来我研究一会 写了以下的代码,接下来show you the code 1.maven导入 [pre] <dependency> <groupId>us.codecraft</groupId> <artifactId>webmagic-core</artifactId> <version>0.7.3</version> </dependency> <dependency> <groupId>us.codecraft</groupId> <artifactId>webmagic-extension</artifactId> <version>0.7.3</version> <exclusions> <exclusion> <groupId>org.slf4j</groupId> <artifactId>slf4j-log4j12</artifactId> </exclusion> </exclusions> </dependency> [/pre] 2.找到目标网站 a(http://sj.zol.com.cn/bizhi/)[http://sj.zol.com.cn/bizhi/] 3.接下来最重要的代码: [pre] public class BizhiPachong implements PageProcessor { private Site site = Site.me().setRetryTimes(3).setSleepTime(3000).setDomain("sj.zol.com.cn"); public void process(Page page) { List<String> links = page.getHtml().links().regex("http://sj\\.zol\\.com\\.cn/bizhi/new_[1-9]\\.html").all(); page.addTargetRequests(links); page.putField("imgsrc", page.getHtml().xpath("//img/@src").all()); } public Site getSite() { return site; } public static void main(String[] args) { Spider.create(new BizhiPachong()).addUrl("http://sj.zol.com.cn/bizhi/new_1.html") .addPipeline(new ConsolePipeline()).run(); } } [/pre] 好了 ,图片地址全部打印出来了。。。

评论