首页 > > 网络编程 > 其它 >

芝麻HTTP：在阿里云上测试Gerapy教程

2018-06-18 01:00:10来源：未知阅读 ()

1、配置环境

阿里云的版本是2.7.5，所以用pyenv新安装了一个3.6.4的环境，安装后使用pyenv global 3.6.4即可使用3.6.4的环境，我个人比较喜欢这样，切换自如，互不影响。

如下图：

接下来按照大才的文章，pip install gerapy即可，这一步没有遇到什么问题。有问题的同学可以向大才提issue。

2. 开启服务

首先去阿里云的后台设置安全组，我的是这样：

然后到命令窗口对8000和6800端口放行即可。

接着执行

gerapy init

cd gerapy

gerapy migrate

# 注意下一步

gerapy runserver 0.0.0.0:8000 【如果你是在本地，执行 gerapy runserver即可，如果你是在阿里云上，你就要改成前面这样来执行】

现在在浏览器里访问：ip:8000应该就可以看到主界面了

里面的各个的含义见大才的文章。

3.创建项目

在gerapy下的projects里面新建一个scrapy爬虫，在这里我搞的是最简单的：

scrapy startproject gerapy_test

cd gerapy_test

scrapy genspider baidu www.baidu.com

这样就是一个最简单的爬虫了，修改一个settings.py中的ROBOTSTXT_OBEY=False, 然后修改一个spiders下面的baidu.py, 这里随意，我这里设置的是输出返回的 response.url

4.安装scrapyd

pip install scrapyd

安装好以后，命令行执行

scrapyd

然后浏览器中打开 ip:6800，如果你没有修改配置，应该这里会打不开，clients那里配置的时候，也应该会显示为error，就像这样：

后来找了一下原因发现scrapyd默认打开的也是127.0.0.1

所以这个时候就要改一下配置，具体可以参考这里，我是这么修改：

vim ~/.scrapyd.conf

[scrapyd]
bind_address = 0.0.0.0

在刷新一下，就会看到前面error变成了normal

5. 打包，部署，调度

这几步大才的文章里都有详细说明，打包完，部署，在进入clients的调度界面，点击run按钮即可跑爬虫了

在阿里云上测试Gerapy教程

可以看到输出的结果了。

6.结语

建议大家可以试着用一下，很方便，我这里只是很简单的使用了一下。

标签：

版权申明：本站文章部分自网络，如有侵权，请联系：west999com@outlook.com
特别注意：本站所有转载文章言论不代表本站观点，本站所提供的摄影照片，插画，设计作品，如需使用，请与原作者联系，版权归原作者所有

上一篇：python能干什么？&& python为什么那么火？&&amp

下一篇：芝麻HTTP：记scikit-learn贝叶斯文本分类的坑

python 之前端开发（HTTP协议、head标签、img标签、a标签、 2019-08-13
Python Http-server 使用 2019-07-24
HTTP: Request中的post和get区别 2019-07-24
RobotFramework + HTTP接口自动化实现 2019-07-24
解决pyhton aiohttp ssl:None [[SSL: CERTIFICATE_VERIFY_FA 2019-07-24

IDC资讯：主机资讯注册资讯托管资讯 vps资讯网站建设

网站运营：建站经验策划盈利搜索优化网站推广免费资源

网站联盟：联盟新闻联盟介绍联盟点评网赚技巧

行业资讯：搜索引擎网络游戏电子商务广告传媒

网络编程： Asp.Net编程 Asp编程 Php编程 Xml编程 Access Mssql Mysql 其它

服务器技术： Web服务器 Ftp服务器 Mail服务器 Dns服务器安全防护

软件技巧：其它软件 Word Excel Powerpoint Ghost Vista QQ空间 QQ FlashGet 迅雷

网页制作： FrontPages Dreamweaver Javascript css photoshop fireworks Flash

程序设计： Java技术 C/C++ VB delphi

网络知识：网络协议网络安全网络管理组网方案 Cisco技术

操作系统： Win2000 WinXP Win2003 Mac OS Linux FreeBSD

热门词条

最新资讯

热门关注

热门标签