爬虫初入
2018-11-20 03:24:05来源:博客园 阅读 ()
什么是爬虫?
爬虫就是通过编写程序模拟浏览器上网,然后让其去互联网上抓取数据的过程。
爬虫的分类
通用爬虫
通用爬虫是搜索引擎“抓取系统”的重要组成部分,主要目的是将互联网上的内容下载到本地,形成一个互联网内容的镜像备份。简单来讲就是尽可能将网页下载到本地服务器进行备份,再对这些内容进行处理,最后提供一个用户检索接口。
聚焦爬虫
根据指定需求抓取互联网上指定的数据。
反爬虫
门户网站通过一定的策略和技术手段,防止爬虫程序进行网站数据的爬取。
反反爬虫
爬虫程序通过相应的技术和手段,破解门户网站的饭爬虫手段,从而爬取到相应的数据。
工欲善其事必先利其器
Jupyter Notebook是以网页的形式打开,可以在网页页面中直接编写代码和运行代码,代码的运行结果也会直接在代码块下显示。如在编程过程中需要编写说明文档,可在同一个页面中直接编写,便于作及时的说明和解释。
Jupyter Notebook的主要特点
- 编程时具有语法高亮、缩进、tab补全的功能。
- 可直接通过浏览器运行代码,同时在代码块下方展示运行结果。
- 对代码编写说明文档或语句时,支持Markdown语法。
安装
① 安装前提
安装Jupyter Notebook的前提是需要安装了Python(3.3版本及以上,或2.7版本)。
② 使用Anaconda安装
建议大家通过安装Anaconda来解决Jupyter Notebook的安装问题,因为Anaconda已经自动为你安装了Jupter Notebook及其他工具,还有python中超过180个科学包及其依赖项。
你可以通过进入Anaconda的 https://www.anaconda.com/download 自行选择下载;
运行Jupyter Notebook
启动doc运行窗口,输入jupyter notebook就会启动浏览器以网页形式打开。之后的操作自己稍加琢磨就会了。
快捷键:
b:向下插入一个cell
a:向上插入一个cell
m:将cell的类型切换成markdown类型
y:将cell的类型切换成code类型
shift+enter:执行cell
shift+tab:查看模块的帮助文档
tab:自动补全
标签:
版权申明:本站文章部分自网络,如有侵权,请联系:west999com@outlook.com
特别注意:本站所有转载文章言论不代表本站观点,本站所提供的摄影照片,插画,设计作品,如需使用,请与原作者联系,版权归原作者所有
上一篇:set集合的差集的区别
- 小白如何入门 Python 爬虫? 2019-08-13
- python day1-requests 2019-08-13
- python day2-爬虫实现github登录 2019-08-13
- python爬虫学习之爬取超清唯美壁纸 2019-08-13
- python爬虫学习之用Python抢火车票的简单小程序 2019-08-13
IDC资讯: 主机资讯 注册资讯 托管资讯 vps资讯 网站建设
网站运营: 建站经验 策划盈利 搜索优化 网站推广 免费资源
网络编程: Asp.Net编程 Asp编程 Php编程 Xml编程 Access Mssql Mysql 其它
服务器技术: Web服务器 Ftp服务器 Mail服务器 Dns服务器 安全防护
软件技巧: 其它软件 Word Excel Powerpoint Ghost Vista QQ空间 QQ FlashGet 迅雷
网页制作: FrontPages Dreamweaver Javascript css photoshop fireworks Flash