python爬虫--下载煎蛋网妹子图到本地
2018-06-18 00:07:38来源:未知 阅读 ()
1 # -*- coding:utf-8 -*- 2 """ 3 下载煎蛋妹子到本地,通过selenium、正则表达式、phantomjs、Beautifulsoup实现 4 """ 5 6 import re 7 import os 8 9 from selenium import webdriver 10 from selenium.webdriver.support.wait import WebDriverWait 11 from selenium.webdriver.support import expected_conditions as EC 12 from selenium.webdriver.common.by import By 13 from selenium.common.exceptions import TimeoutException 14 from bs4 import BeautifulSoup 15 from urllib import urlretrieve 16 17 #解决谷歌浏览器正受到自动测试软件的控制 18 # options = webdriver.ChromeOptions() 19 # options.add_argument('disable-infobars') 20 21 url = 'http://jandan.net/ooxx' 22 # driver = webdriver.Chrome(chrome_options=options) 23 driver = webdriver.PhantomJS() 24 wait = WebDriverWait(driver, 30) 25 26 #下载的煎蛋妹子保存的文件夹 27 img_save_file = 'images' 28 29 #获取总页数。打开煎蛋网-妹子图默认页面可以获取到总页数 30 def get_default_page_num(): 31 try: 32 driver.get(url) 33 page_element = wait.until(EC.presence_of_element_located((By.CSS_SELECTOR, '.current-comment-page'))) 34 return page_element.text 35 except TimeoutException: 36 get_default_page_num() 37 38 #获取图片的url 39 def get_img_url(page_number): 40 img_url_list = [] 41 url = r'http://jandan.net/ooxx/page-'+ str(page_number) + r'#comments' 42 print url 43 # url = 'http://www.baidu.com' 44 html = driver.get(url) 45 try: 46 driver.get(url) 47 wait.until(EC.presence_of_element_located((By.CSS_SELECTOR, '#comments > ol img'))) 48 except TimeoutException: 49 print "打开页面失败,重新加载该页面" 50 get_img_url(page_number) 51 52 #获取页面html元素 53 html = driver.page_source 54 #通过BeautifulSoup解析 55 soup = BeautifulSoup(html, 'html.parser') 56 #找出所有为img的标签 57 imgs = soup.find_all('img') 58 #gif图片需要获取ora_src属性,才是完整的gif图片。has_attr 判断是否有某个属性,attrs可以获取属性值 59 for img in imgs: 60 if img.has_attr('org_src'): 61 img_url = img.attrs['org_src'] 62 else: 63 img_url = img.attrs['src'] 64 img_url_list.append(img_url) 65 return img_url_list 66 67 #下载图片,通过urllib的urlretrieve实现 68 def download_img(img_url): 69 img_name = img_url.split('/')[-1] 70 img_save_path = img_save_file + '/' +img_name 71 urlretrieve(img_url, img_save_file + '/' + img_name) 72 73 #创建图片存储所在的文件夹 74 def add_img_save_file(img_save_file): 75 if os.path.exists(img_save_file): 76 pass 77 else: 78 os.makedirs(img_save_file) 79 80 def main(): 81 add_img_save_file(img_save_file) 82 #通过正则表达式提取当前的页数 83 partner = re.compile(r'(\d+)') 84 content = get_default_page_num() 85 total_pages = partner.search(content).group() 86 87 for i in range(1, int(total_pages) + 1): 88 print "正在下载第" + str(i) + '的图片,url为:', 89 img_url_list = get_img_url(str(i)) 90 for img_url in img_url_list: 91 download_img(img_url) 92 93 if __name__ == '__main__': 94 main()
标签:
版权申明:本站文章部分自网络,如有侵权,请联系:west999com@outlook.com
特别注意:本站所有转载文章言论不代表本站观点,本站所提供的摄影照片,插画,设计作品,如需使用,请与原作者联系,版权归原作者所有
- python3基础之“术语表(2)” 2019-08-13
- python3 之 字符串编码小结(Unicode、utf-8、gbk、gb2312等 2019-08-13
- Python3安装impala 2019-08-13
- 小白如何入门 Python 爬虫? 2019-08-13
- python_字符串方法 2019-08-13
IDC资讯: 主机资讯 注册资讯 托管资讯 vps资讯 网站建设
网站运营: 建站经验 策划盈利 搜索优化 网站推广 免费资源
网络编程: Asp.Net编程 Asp编程 Php编程 Xml编程 Access Mssql Mysql 其它
服务器技术: Web服务器 Ftp服务器 Mail服务器 Dns服务器 安全防护
软件技巧: 其它软件 Word Excel Powerpoint Ghost Vista QQ空间 QQ FlashGet 迅雷
网页制作: FrontPages Dreamweaver Javascript css photoshop fireworks Flash