案例 — 使用bs4 爬取猫眼电影热榜
2019-07-24 09:19:44来源:博客园 阅读 ()
使用 BeautiSoup库bs4模块 主要使用select 、for循环和 存入本地txt
from bs4 import BeautifulSoup from urllib import request url = "http://maoyan.com/board" rsq = request.urlopen(url) html = rsq.read().decode() soup = BeautifulSoup(html,"lxml") items = soup.select('dd') # 查找所有 <dd> </dd> with open("D://maoyan.txt","w",encoding="utf-8") as f: # 构建本地txt文档 for item in items: title = item.select('p a[data-act="boarditem-click" ]')[0].get_text() # 提取标题 star = item.select('p[class = "star"]')[0].get_text().replace("\n","").strip(" ") # 提取主演 score = item.select('p[class = "score"]')[0].get_text().strip('\n').strip(' ') # 提取分数 releasetime = item.select('p[class = "releasetime"]')[0].get_text() # 提取上映时间 datas = title + " " + releasetime + " "+ star + " " + score + "\n" # 数据整合 print(datas) f.write(datas) # 利用for循环把每条datas信息写入本地 f.close() print("Sucessful")
原文链接:https://www.cnblogs.com/chen-jun552/p/11174785.html
如有疑问请与原作者联系
标签:
版权申明:本站文章部分自网络,如有侵权,请联系:west999com@outlook.com
特别注意:本站所有转载文章言论不代表本站观点,本站所提供的摄影照片,插画,设计作品,如需使用,请与原作者联系,版权归原作者所有
下一篇:Python-07-高阶函数
- Django项目中使用qq第三方登录。 2019-08-13
- Python连载30-多线程之进程&线程&线程使用 2019-08-13
- Python学习日记(十) 生成器和迭代器 2019-08-13
- 【Python】语法基础 | 开始使用Python 2019-08-13
- 使用scrapy框架爬取全书网书籍信息。 2019-08-13
IDC资讯: 主机资讯 注册资讯 托管资讯 vps资讯 网站建设
网站运营: 建站经验 策划盈利 搜索优化 网站推广 免费资源
网络编程: Asp.Net编程 Asp编程 Php编程 Xml编程 Access Mssql Mysql 其它
服务器技术: Web服务器 Ftp服务器 Mail服务器 Dns服务器 安全防护
软件技巧: 其它软件 Word Excel Powerpoint Ghost Vista QQ空间 QQ FlashGet 迅雷
网页制作: FrontPages Dreamweaver Javascript css photoshop fireworks Flash