Python 爬虫 (五)
2018-08-17 09:48:19来源:博客园 阅读 ()
# 头条街拍图片爬取
1 import re 2 import requests 3 from urllib import request 4 import json 5 import os 6 i = 0 7 headers = { 8 'user-agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/68.0.3440.106 Safari/537.36' 9 } 10 while True: 11 pag_all_url = 'https://www.toutiao.com/search_content/?offset={}&format=json&keyword=%E8%A1%97%E6%8B%8D&autoload=true&count=20&cur_tab=1&from=search_tab' 12 i += 20 13 full_pag_url = pag_all_url.format(i) 14 # print(full_pag_url) # 街拍的首页 根据不同的i来请求ajax,从而获得所有的街拍网址 像这样https://www.toutiao.com/search/?keyword=%E8%A1%97%E6%8B%8D 15 pag_html = requests.get(full_pag_url,headers = headers).text 16 pag_html_str = str(json.loads(pag_html)) 17 # print(pag_html_str) #把网页转化为字符串 进行正则匹配 18 img_pag_id = re.findall(r'\'item_source_url\': \'\/group\/(\d*)\/\',',pag_html_str) 19 # print(img_pag_id) #获得每个街拍的url like this--->https://www.toutiao.com/a6590127156037157379/ 20 for l in img_pag_id: #图片下载 21 img_all_url = 'https://www.toutiao.com/a{}' 22 full_url = img_all_url.format(l) 23 # print(full_url)#图片的url print(full_pag_url)#图片所在的url 24 html = requests.get(full_url,headers=headers).text 25 pattern = r'gallery: JSON\.parse\((.*)\),' 26 ans1 = re.search(pattern,html) 27 try: 28 ans1_str = json.loads(ans1[1]) 29 ans1_dic = json.loads(ans1_str) 30 # print(ans1_dic) 31 # if not os.path.exists('1'): 32 # os.mkdir('1') 33 for q in ans1_dic['sub_images']: 34 img_url = q['url'] 35 print(img_url) 36 filename = '1/' + img_url.split('/')[-1] + '.jpg' 37 request.urlretrieve(img_url, filename) 38 except:continue
标签:
版权申明:本站文章部分自网络,如有侵权,请联系:west999com@outlook.com
特别注意:本站所有转载文章言论不代表本站观点,本站所提供的摄影照片,插画,设计作品,如需使用,请与原作者联系,版权归原作者所有
上一篇:re模块
- python3基础之“术语表(2)” 2019-08-13
- python3 之 字符串编码小结(Unicode、utf-8、gbk、gb2312等 2019-08-13
- Python3安装impala 2019-08-13
- 小白如何入门 Python 爬虫? 2019-08-13
- python_字符串方法 2019-08-13
IDC资讯: 主机资讯 注册资讯 托管资讯 vps资讯 网站建设
网站运营: 建站经验 策划盈利 搜索优化 网站推广 免费资源
网络编程: Asp.Net编程 Asp编程 Php编程 Xml编程 Access Mssql Mysql 其它
服务器技术: Web服务器 Ftp服务器 Mail服务器 Dns服务器 安全防护
软件技巧: 其它软件 Word Excel Powerpoint Ghost Vista QQ空间 QQ FlashGet 迅雷
网页制作: FrontPages Dreamweaver Javascript css photoshop fireworks Flash