论如何优雅地使用爬虫摸鱼

2018-09-29 04:03:58来源：博客园阅读 ()

最近手上项目空了下来，没什么事做。博客博客不想写，文章文章不想看。于是干脆看点小说吧，但是上班时间，大家都在认认真真敲代码，自己拿出手机看小说又不是很好（其实主要是数据线坏了，在公司没发充电），电脑上浏览器看，更是不行。于是想了想，干脆就自己爬着看吧，把内容打印在IDE的控制台，想一想这波操作就很骚，于是说动就动。

爬虫选择

由于本人是一枚正经的Javaer，所以爬虫当然也要用Java咯。Java下也有几款比较好的爬虫软件，如nutch、crawler4j 等。但是我只是爬个网页，看个小说而已啊。于是就选了个Jsoup，直接解析Html信息，从中提取小说内容。

其实选择Jsoup还有个原因就是我好歹写过一阵子jQuery，对jQuery语法比较熟悉。因为Jsoup语法与jQuery语法非常一致。

开始动工

添加maven依赖


<dependency>
    <groupId> org.jsoup </groupId>
    <artifactId> jsoup </artifactId>
    <version> 1.9.2 </version>
</dependency>

爬取页面信息

Jsoup的爬取方式十分简单，是通过获取html文档到本地，然后再用jQuery的解析方式做的DOM解析。

public class BiQuGeCrawler extends AbstractCrawler {

    @Override
    public String getPage(String url) {
        try {
            page = Jsoup.connect(url).get();

            this.getNext();
            this.getLast();
        } catch (IOException e) {
            e.printStackTrace();
        }
        return this.getContent();
    }

    @Override
    protected String getContent(){
        Element cntEl = page.getElementById("content");
        // 八个空格，（制表符号）
        return cntEl.text().replaceAll("        ", "\n");
    }

    protected void getNext() {
        Element ul = page.getElementsByClass("page_chapter").get(0).child(0);
        Element nextHref = ul.child(2).child(0);
        nextUrl = nextHref.attr("abs:href");
    }

    protected void getLast() {
        Element ul = page.getElementsByClass("page_chapter").get(0).child(0);
        Element lastHref = ul.child(0).child(0);
        lastUrl = lastHref.attr("abs:href");
    }
}

获取小说正文内容及前一页、后一页链接等关键信息。

设置翻页及退出

每次抓取完页面后，监听控制台输入值，进行翻页、退出操作。

public class Function {

    // app配置
    private AppConfig config;
    // 爬虫类
    private AbstractCrawler crawler;

    public Function(String firstUrl){
        config = new AppConfig();
        crawler =  CrawlerFactory.build(config.sourceType);
        startView(firstUrl);
    }

    // 页面浏览
    private void startView(String pageUrl){
        String content = crawler.getPage(pageUrl);
        System.out.println(content);
        this.inputListener();
    }

    // 开始浏览
    private void inputListener(){
        System.out.println("*************");
        System.out.println("* L 上一页   *");
        System.out.println("* Q 退出     *");
        System.out.println("* 其他 下一页 *");
        System.out.println("*************");
        Scanner sc = new Scanner(System.in);
        String input = sc.nextLine();
        if ("l".equalsIgnoreCase(input)){
            // 上一页
            startView(crawler.lastUrl);
        } else if ("q".equalsIgnoreCase(input)){
            // 退出
        } else {
            // 下一页
            startView(crawler.nextUrl);
        }
    }
}