java爬虫之入门基础

2018-11-22 08:43:18来源：博客园阅读 ()

相比于C#，java爬虫，python爬虫更为方便简要，首先呢，python的urllib2包提供了较为完整的访问网页文档的API，再者呢对于摘下来的文章，python的beautifulsoap提供了简洁的文档处理功能，这就成就了他爬虫的优势。

作为一名满脑子要成为一名大牛的程序员小白来讲，倒不是非要热爱哪一门语言，还是觉得哪一个好用而用之。

那么今天呢就来给大家分享一个我喜欢但是不好用的java爬虫系列...

先上码和效果图

package org.lq.wzq.Test;
/**
 * 读取青年网的数据，并进行分析
 * xutao   2018-11-22  09：09
 */
import java.io.*;
import java.net.*;

public class pachong {
    public static void main(String args[]){
        //确定爬取的网页地址，此处为青年网热点新闻的网页
        //网址为       http://news.youth.cn/sz/201811/t20181121_11792273.htm
        String strurl="http://news.youth.cn/sz/201811/t20181121_11792273.htm";
        //建立url爬取核心对象
        try {
            URL url=new URL(strurl);
            //通过url建立与网页的连接
            URLConnection conn=url.openConnection();
            //通过链接取得网页返回的数据
            InputStream is=conn.getInputStream();
            System.out.println(conn.getContentEncoding());
            //一般按行读取网页数据，并进行内容分析
            //因此用BufferedReader和InputStreamReader把字节流转化为字符流的缓冲流
            //进行转换时，需要处理编码格式问题   注意一般为GBK或者UTF-8（乱码就换另外一个）
            BufferedReader br=new BufferedReader(new InputStreamReader(is,"GBK"));
            //按行读取并打印
            String line=null;
            while((line=br.readLine())!=null){
                System.out.println(line);
            }
            br.close();
        } catch (Exception e) {
            // TODO Auto-generated catch block
            e.printStackTrace();
        }
        
    }
}