下载博客首页的博客列表

2018-06-17 23:24:59来源:未知 阅读 ()

新老客户大回馈,云服务器低至5折

url_con = urllib.urlopen('http://blog.sina.com.cn/s/articlelist_1193111400_0_1.html').read()
print 'con' ,url_con

url = ['']*40
i = 0
title = url_con.find(r'<a title=')

print "title",title
href = url_con.find(r'href=',title)
print "href",href

html = url_con.find(r'.html',href)
print "html",html


while title != -1 and href != -1 and html != -1 and i < 40:
    url[i] = url_con[href+6:html+5]
    print url[i]
    title = url_con.find(r'<a title=',html)
    
    href = url_con.find(r'href=',title)
    
    html = url_con.find(r'.html',href)
    
    filename = url[-26:]

    i = i + 1
j = 0
while j < 40:
    content = urllib.urlopen(url[j]).read()
    filename = url[j][-26:]
    open(r'blog/'+ filename,'w').write(content)
    j = j+ 1
    time.sleep(5)

 以上代码是获取博客文章的列表

标签:

版权申明:本站文章部分自网络,如有侵权,请联系:west999com@outlook.com
特别注意:本站所有转载文章言论不代表本站观点,本站所提供的摄影照片,插画,设计作品,如需使用,请与原作者联系,版权归原作者所有

上一篇:Python内置类型(3)——比较

下一篇:Python中的赋值(复制)、浅拷贝、深拷贝之间的区别