• pyspider+PhantomJS的代理设置

    环境:pyspider0.3.9PhantomJS2.1.1,均为最新版 进程用supervisor托管的。 其中需要加的几个地方: webui进程: pyspider -c config.json --phantomjs-proxy= 127.0 . 0.1 : 25555 webui processor进程: pyspider -c config.json --phantomjs-proxy= 127.0 . 0.1 : 2...

    2019-03-10 11:51:41

  • python数据分析之pandas数据选取:df[] df.loc[] df.i

    1 引言 Pandas是作为Python数据分析著名的工具包,提供了多种数据选取的方法,方便实用。本文主要介绍Pandas的几种数据选取的方法。 Pandas中,数据主要保存为Dataframe和Series是数据结构,这两种数据结构数据选取的方式基本一致,本文主要以Dataframe为例进行介绍。...

    2019-03-10 11:52:12

  • 模块的导入

    一.模块导入的过程 (1).先从sys.modules里查看模块是否已经被导入 (2).如果没有被导入,就依据sys.path路径寻找模块 (3).找到了模块就导入 (4).创建这个模块的命名空间 (5).执行文件,把文件中的名字都放到命名空间里 import sys print (sys.modules.keys()) print (sy...

    2019-03-10 11:51:59

  • python爬虫简单的添加代理进行访问

    在使用python对网页进行多次快速爬取的时候,访问次数过于频繁,服务器不会考虑User-Agent的信息,会直接把你视为爬虫,从而过滤掉,拒绝你的访问,在这种时候就需要设置代理,我们可以给proxies属性设置一个代理的IP地址,代码如下: 1 import requests 2 from lxml import etr...

    2019-03-10 11:51:50

  • Django之Ajax文件上传

    请求头ContentType ContentType指的是请求体的编码类型,常见的类型共有3种: 1 application/x-www-form-urlencoded(看下图) 这应该是最常见的 POST 提交数据的方式了。浏览器的原生 form 表单,如果不设置 enctype 属性,那么最终就会以 默认格式application/x-www-...

    2019-03-10 11:51:28

  • 关于Python课程的一些思考。

    出于对网络爬虫的好奇,我选修了Python程序设计,至于pyhton还能干啥还不太清除,只觉得爬一些数据很有意思,所以希望老师讲一些数据分析之类的技术。学完课程希望能分析一些数据,比如: 还有: 上课的话希望快速讲完基础知识(语法什么的),然后讲一些有意思的库,...

    2019-03-10 11:51:11

  • Python3 条件与循环

    1.条件控制 下面是一个简单的条件控制语句 s=input( 'Please input a str: ') if s== 'python':print( 'I love python!') elif s== 'php':print( 'I love php!') else:print( 'I love c++!') 2.循环 (1).for for语句后面必须是可迭代的对象 a=[ 'a', 'b', 'c'] for i i...

    2019-03-10 11:51:29

  • python 验证码识别库pytesseract的使用

    笔者环境 centos7 python3 pytesseract只是tesseract-ocr的一种实现接口。所以要先安装tesseract-ocr(大名鼎鼎的开源的OCR识别引擎)。 依赖安装 yum install-y automake autoconf libtool gcc gcc-c++yum install-y libpng-devel libjpeg-devel libtiff-devel giflib...

    2019-03-10 11:51:24

  • python深拷贝与浅拷贝

    可变对象与不可变对象 要理解深拷贝和浅拷贝,首先要理解可变对象和不可变对象。 不可变对象:该对象所指向的内存中的值不能被改变,修改对象的值时,由于其指向的值不能被改变,因此实际上是在内存中重新开辟一个地址用来存储新的值,然后将对象指向这个新值。本质上...

    2019-03-10 11:51:11

  • Python 之Web编程

    一 、HTML是什么? htyper text markup language 即超文本标记语言 超文本:就是指页面内可以包含图片、链接、甚至音乐、程序等非文字元素 标记语言:标记(标签)构成的语言 静态网页:静态的资源,如xxx.html 动态网页:html代码是由某种开发语言根据用户请求动态生成 h...

    2019-03-06 07:18:40

2