Window环境下python爬取百度权重排行榜,如果你对SEO优化有所了解,那么你一定知道权重的概念,以及它的重要意义,下面这些是官方解释:
权重是指某一因素或指标相对于某一事物的重要程度,其不同于一般的比重,体现的不仅仅是某一因素或指标所占的百分比,强调的是因素或指标的相对重要程度,倾向于贡献度或重要性。通常,权重可通过划分多个层次指标进行判断和计算,常用的方法包括 层次分析法 、模糊法、 模糊层次分析法 和专家评价法等。
官方的话太绕口,简单来讲就是你在某一个行业所占的位置的重要程度。
那么我们获得这些数据有什么作用呢?
我们身处于大数据时代,然而意义不在于掌握庞大的数据信息,而在于对这些含有意义的数据进行特殊加工,创造价值。
当我们了解权重,那么我们就可以利用python获取我们所需行业权重最高的数据,进行分析、归纳、总结。学着人家的方法做,或在人家的方法上进行加工,创造更多的价值。
Python爬取到的效果图:
# coding=utf-8
import requests
import re
import sys
reload(sys)
sys.setdefaultencoding('utf-8')
url = "http://top.chinaz.com/all/index_br.html"#由于第一页跟第二页之后的url格式不一样,so,分两步完成.
headers = {"User-Agent": "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/55.0.2883.87 Safari/537.36"}
session = requests.session()
html = session.get(url, headers=headers).content
config = re.compile('<span class="col-gray">(.*?)</span>.*?<a target="_blank" >(.*?)</a>.*?<img src="/themes/default/images/baidu/(.*?).gif">')
res = re.findall(config, html)
connecterror = []
f = open("url.txt", "a")
print '''程序启动... '''
for i in range(1, len(res)):
if "www" in res[0:3]:
cc = "http://" + res[0]
try:
a= cc + ' | Alexa周排名: ' + res[i - 1][1] + ' | 百度权重: ' + res[i - 1][2] + ' | Server: ' + requests.get(cc, headers=headers).headers['Server']
print a
f.write(a+'\n')
except:
a = cc + ' | Alexa周排名: ' + res[i - 1][1] + ' | 百度权重: ' + res[i - 1][2] + ' | Server: 获取失败'
print a
f.write(a+'\n')
connecterror.append(cc)
else:
cc = "http://www." + res[0]
try:
a = cc + ' | Alexa周排名: ' + res[i - 1][1] + ' | 百度权重: ' + res[i - 1][2] + ' | Server: ' + requests.get(cc, headers=headers).headers['Server']
print a
f.write(a+'\n')
except:
a = cc + ' | Alexa周排名: ' + res[i - 1][1] + ' | 百度权重: ' + res[i - 1][2] + ' | Server: 获取失败'
print a
f.write(a+'\n')
connecterror.append(cc)
for j in range(2,1844):
url = "http://top.chinaz.com/all/index_br_%d.html"%j
headers = {"User-Agent": "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/55.0.2883.87 Safari/537.36"}
session = requests.session()
html = session.get(url, headers=headers).content
config = re.compile('<span class="col-gray">(.*?)</span>.*?<a target="_blank" >(.*?)</a>.*?<img
Python编程语言是迄今为止最好用的做爬虫的语言,身处大数据时代,数据就是不动产。所以Python爬虫虽然简单,但是却非常有学习的必要!