爬虫简单基础代码
2018-06-18 02:40:00来源:未知 阅读 ()
以下代码可以去掉注释单独运行:
1 import urllib.request 2 3 url = 'http://www.jianshu.com/' 4 response = urllib.request.urlopen(url=url) #第一个参数是要打开的url 第二个是data表示post请求时 使用的 print(type(response))\ 5 # #返回的是一个HTTPResponse对象 6 # print(response.read()) #读取了所有网页的内容 包括换行符和制表符,获取的二进制数据 7 # print(response.read().decode('utf-8')) #解码后进行输出 #字符串-》字节:编码 encode() 字节-》字符串:解码 decode() 8 # print(response.readline()) #读取一行 9 # print(response.readlines()) #读取全部返回一个列表 10 # print(response.getheaders()) #返回一个响应头信息,列表里面有元组 11 # urllib.request.urlretrieve(url=url,filename='baidu.html') #将文件下载到本地并命名,可以下载网页 图片 视频等 12 # urllib.parse #处理url的urllib.parse.urlencode 介绍post请求的时候再说这个函数 13 print(response.getheaders()) 14 #编码:因为浏览器并不能识别你请求里面的中文字符 15 # 编码 16 # string = urllib.parse.quote('http://www.baidu.com?username=狗蛋&password=123') 17 # print(string) 18 #解码 19 # string = urllib.parse.unquote('http%3A//www.baidu.com%3Fusername%3D%E7%8B%97%E8%9B%8B%26password%3D123') 20 # print(string)
标签:
版权申明:本站文章部分自网络,如有侵权,请联系:west999com@outlook.com
特别注意:本站所有转载文章言论不代表本站观点,本站所提供的摄影照片,插画,设计作品,如需使用,请与原作者联系,版权归原作者所有
下一篇:第二篇:Python基本知识
- python3基础之“术语表(2)” 2019-08-13
- 小白如何入门 Python 爬虫? 2019-08-13
- python_0基础开始_day07 2019-08-13
- python day2-爬虫实现github登录 2019-08-13
- 【Python】语法基础 | 开始使用Python 2019-08-13
IDC资讯: 主机资讯 注册资讯 托管资讯 vps资讯 网站建设
网站运营: 建站经验 策划盈利 搜索优化 网站推广 免费资源
网络编程: Asp.Net编程 Asp编程 Php编程 Xml编程 Access Mssql Mysql 其它
服务器技术: Web服务器 Ftp服务器 Mail服务器 Dns服务器 安全防护
软件技巧: 其它软件 Word Excel Powerpoint Ghost Vista QQ空间 QQ FlashGet 迅雷
网页制作: FrontPages Dreamweaver Javascript css photoshop fireworks Flash