首页 > > 网络编程 > 其它 >

最牛逼的数据分析之Pandas！亿级数据都能轻松处…

2018-07-29 08:48:38来源：博客园阅读 ()

进群：125240963 即可获取数十套PDF或者零基础入门教程一套哦！

Pandas的数据类型

这里我们从csv文件中读取到了数据，并将他们存入了dataframe中。我们只需要调用read_csv函数并将csv文件的路径作为函数参数即可。header关键字告诉Pandas这些数据是否有列名，在哪里。如果没有列名，你可以将其置为None。Pandas非常智能，所以你可以省略这一关键字

你将获得类似下图的表

当你在Pandas中查找列时，你通常需要使用列名。这样虽然非常便于使用，但有时候，数据可能会有特别长的列名，例如，有些列名可能是问卷表中的某整个问题。把这些列名变短会让你的工作更加轻松：

我们也可以使用这些条件表达式来过滤一个已知的dataframe。

这将返回一个仅仅包含9、10月降雨量低于1000mm的条目的dataframe。

你也可以使用多条条件表达式来进行过滤：

这将返回rain_octsep小于1000并且outflow_octsep小于4000的那些条目。

值得注意的是，由于操作符优先级的问题，在这里你不可以使用关键字‘and’，而只能使用’&’与括号

好消息是，如果在你的数据中有字符串，你也可以使用字符串方法来过滤数据。

注意到你必须使用.str.[string method]，你不能直接在字符串上直接调用字符串方法。这一语句返回1990年代的所有条目。

在上面这个例子中，我们把我们的索引值全部设置为了字符串。这意味着我们不可以使用iloc索引这些列了。这种情况该如何？我们使用loc。

这里，loc和iloc一样会返回你所索引的行数据的一个series。唯一的不同是此时你使用的是字符串标签进行引用，而不是数字标签。

ix是另一个常用的引用一行的方法。那么，如果loc是字符串标签的索引方法，iloc是数字标签的索引方法，那什么是ix呢？事实上，ix是一个字符串标签的索引方法，但是它同样支持数字标签索引作为它的备选。

正如loc和iloc，上述代码将返回一个series包含你所索引的行的数据。

既然ix可以完成loc和iloc二者的工作，为什么还需要它们呢?最主要的原因是ix有一些轻微的不可预测性。还记得我说数字标签索引是ix的备选吗？数字标签可能会让ix做出一些奇怪的事情，例如将一个数字解释成一个位置。而loc和iloc则为你带来了安全的、可预测的、内心的宁静。然而必须指出的是，ix要比loc和iloc更快。

通常我们都希望索引是整齐有序地。我们可以在Pandas中通过调用sort_index来对dataframe实现排序。