首页 > > 网络编程 > 其它 >

[数据分析工具] Pandas 不可不知的功能（一）

2018-06-18 00:51:08来源：未知阅读 ()

如果你在使用 Pandas（Python Data Analysis Library）的话，下面介绍的对你一定会有帮助的。

首先我们先介绍一些简单的概念

DataFrame：行列数据，类似 Excel 的 sheet，或关系型数据库的表
series：单列数据
axis：0：行，1：列
shape：DataFrame的行列数，（行数，列数）

1. 加载 CSV

Read_csv 方法有很多参数，有效的利用这些参数可以减轻数据预处理的工作。谁都不愿意做数据清洗，那么我们就在加载数据的时候做一些简单的数据处理

直接加载

- 无参数加载

- 选择特定列加载

- 时间转换加载

分批加载

　　　　有时我们可能需要加载的 csv 太大，可能会导致内存爆掉，这时候，我们就需要分批加载数据进行分析、处理

2. 浏览 DataFrame 数据

df.head(n)：浏览数据的前 n 行，默认 5 行
df.tail(n)：浏览数据的末尾 n 行，默认 5 行
df.sample(n)：随机浏览 n 行数据，默认 5 行
df.shape：tuple 类型的数据行列数，（行数，列数）
df.describe()：计算评估数据的趋势
df.info()：内存和数据类型

3. 在 DataFrame 中增加列

在 DataFrame 中添加新列的操作很简单，下面介绍几种方式

简单方式

　　　　直接增加新列并赋值

　　　　df['new_column'] = 1

计算方式

　　　　df['temp_diff'] = df['atemp'] - df['temp']

条件方式

　　　　我们仅仅根据风速，简单判断一下人体舒适度，体感比较舒服的温度是 0.3 米/秒

循环方式

　　　　我们将 season 转换为具体季节的名称

4. 选择指定单元格

类似于 Excel 单元格的选择，Pandas 提供了这样的功能，操作很简单，但是我本人理解起来确实没有操作看上去那么简单。Pandas 提供了三个方法做类似的操作，loc，iloc，ix，ix 官方已经不建议使用，所以我们下面介绍 loc 和 iloc

loc 根据标签选取loc

　　　　df.loc[行索引开始位置：行索引结束位置,[列名数组]]

iloc 根据索引选取

　　　　df.iloc[行索引开始位置：行索引结束位置,列索开始位置：列索引结束位置]

选取行数据
df.loc[[行索引数组]]，df.iloc[[行索引数组]]

注意：

索引开始位置：闭区间
索引结束位置：开区间
loc 和 iloc 选取整列数据的时候，看上去与 df[列名数组] 的方式一致，但是其实前者返回的仍然是 DataFrame，后者返回的是 Series

知乎：Pandas 功能介绍（一）

我的博客即将搬运同步至腾讯云+社区，邀请大家一同入驻：https://cloud.tencent.com/developer/support-plan

标签：

版权申明：本站文章部分自网络，如有侵权，请联系：west999com@outlook.com
特别注意：本站所有转载文章言论不代表本站观点，本站所提供的摄影照片，插画，设计作品，如需使用，请与原作者联系，版权归原作者所有

上一篇：爬虫高性能相关

下一篇：Python3 的列表

IDC资讯：主机资讯注册资讯托管资讯 vps资讯网站建设

网站运营：建站经验策划盈利搜索优化网站推广免费资源

网站联盟：联盟新闻联盟介绍联盟点评网赚技巧

行业资讯：搜索引擎网络游戏电子商务广告传媒

网络编程： Asp.Net编程 Asp编程 Php编程 Xml编程 Access Mssql Mysql 其它

服务器技术： Web服务器 Ftp服务器 Mail服务器 Dns服务器安全防护

软件技巧：其它软件 Word Excel Powerpoint Ghost Vista QQ空间 QQ FlashGet 迅雷

网页制作： FrontPages Dreamweaver Javascript css photoshop fireworks Flash

程序设计： Java技术 C/C++ VB delphi

网络知识：网络协议网络安全网络管理组网方案 Cisco技术

操作系统： Win2000 WinXP Win2003 Mac OS Linux FreeBSD

热门词条

最新资讯

热门关注

热门标签