BeautifulSoup_lxml解析
2018-06-18 02:18:24来源:未知 阅读 ()
def parseHtml(html): soup = BeautifulSoup(html, 'lxml') # print(soup.prettify)格式化输出 # items = soup.find_all('div', attrs={'class': 'news-list-b'}) # items = soup.select('Tag')#CSS选择器 # items = soup.select('.class')属性 # items = soup.select('#id')ID # items = soup.select('Tag[attr]')标签+属性 # items = soup.select('.class Tag #id')空格表示子节点,组合使用 # items = soup.select('Tag').text取文本 # items = soup.select('Tag').get_text()取文本 # tag.get('className')取标签属性 # tag['className']取标签属性 # tag.attrs.get('className')取标签属性 items = soup.select('.news-list-b .list .item .title a') for item in items: yield item.get('href')#attrs字典取属性
def parseHtml(html):
soup = BeautifulSoup(html, 'lxml')
# print(soup.prettify)格式化输出
# items = soup.find_all('div', attrs={'class': 'news-list-b'})
# items = soup.select('Tag')#CSS选择器
# items = soup.select('.class')属性
# items = soup.select('#id')ID
# items = soup.select('Tag[attr]')标签+属性
# items = soup.select('.class Tag #id')空格表示子节点,组合使用
# items = soup.select('Tag').get_text()取文本
# tag.get('className')取标签属性
# tag['className']取标签属性
# tag.attrs.get('className')取标签属性
items = soup.select('.news-list-b .list .item .title a')
for item in items:
yield item.get('href')#attrs字典取属性
标签:
版权申明:本站文章部分自网络,如有侵权,请联系:west999com@outlook.com
特别注意:本站所有转载文章言论不代表本站观点,本站所提供的摄影照片,插画,设计作品,如需使用,请与原作者联系,版权归原作者所有
- Django model 字段类型及选项解析 2019-07-24
- Django框架深入了解_04(DRF之url控制、解析器、响应器、版本 2019-07-24
- 解析pascal文件格式并提取其关键信息 2019-07-24
- 不会解析配置文件?1秒钟应用到项目中 2019-05-16
- BeautifulSoup与aiohttp的简单应用-爬取《网上中华五千年》 2019-05-13
IDC资讯: 主机资讯 注册资讯 托管资讯 vps资讯 网站建设
网站运营: 建站经验 策划盈利 搜索优化 网站推广 免费资源
网络编程: Asp.Net编程 Asp编程 Php编程 Xml编程 Access Mssql Mysql 其它
服务器技术: Web服务器 Ftp服务器 Mail服务器 Dns服务器 安全防护
软件技巧: 其它软件 Word Excel Powerpoint Ghost Vista QQ空间 QQ FlashGet 迅雷
网页制作: FrontPages Dreamweaver Javascript css photoshop fireworks Flash