菊姐火了,用Python分析一下菊粉都是哪些人,哪…

2018-07-09 13:31:24来源:博客园 阅读 ()

新老客户大回馈,云服务器低至5折

 

 

 

 

这里的海外指大陆+港澳台以外的其他所有地方。

除海外用户以外就北上广的用户最多了,这些地方的互联网用户基数本来就大。

 

 

 

 

 

数据抓取

先讲讲数据抓取的逻辑,最终目的就是要找到pick王菊的人都是哪些人,刚开始想的是直接抓取王菊的粉丝列表,但是后来发现微博数据有限制,只能抓取少量的粉丝列表,所以这个方案行不通,只能换下一个。

 

可以看到,有评论text,以及每一条text对应的user_id,找到了字段位置,我们再来看看这些字段对应url是什么,有什么规律。

 

 

 

 

获取containerid

获取到了user_id以后,我们再来看看我们想要获取的字段在哪,如下图,

 

知道了我们想要获取的字段在哪以后,再看看这些字段对应的url是什么?

 

最后的结果如下表:

 

可以看到,年龄和星座为空,并不是摩羯座,且当年龄和星座为空时,所在地就会错位到年龄列,接下来就做一些数据预处理。

 

 

 

当然了,最后结果只是右半部分,左半部分是为了对比后期PS加上去的。具体实现代码如下:

 

这里分词没有用jieba分词,而是用了fool,据称是最准确的中文分词包,github地址:https://github.com/rockyzhengwu/FoolNLTK。

饼图绘制

饼图就很简单了,代码如下:

绘制男女比例的饼图

user_info1["性别"].value_counts(normalize = True).plot.pie(title = "菊粉男女分布",autopct='%.2f')

 

 

地图绘制

 

 

 

 

 

 

进群:125240963  即可获取数十套PDF哦!

 

 

标签:

版权申明:本站文章部分自网络,如有侵权,请联系:west999com@outlook.com
特别注意:本站所有转载文章言论不代表本站观点,本站所提供的摄影照片,插画,设计作品,如需使用,请与原作者联系,版权归原作者所有

上一篇:python3-开发进阶Django-debug-toolbar的配置和Django logging的

下一篇:B站直播间炸屏Python源代码,仅用于学习交流,外加视频教程!