谁还没看过几本金庸小说?用Python分析一下当年…
2018-07-12 07:43:14来源:博客园 阅读 ()
- jieba用起来非常简单,短短几行代码就完成了分词工作(下图),可是...仔细一看发现哪里不对了
- “段誉”作为一个姓名没有被单独分出来,而是和其他一些动词连在一起,另外也有一些角色名字被拆分成了两个甚至更多的单词,例如“神仙姊姊”被分成了“神仙”和“姊姊”两个词。
- 不过这也难怪,中文的灵活性太强,一个词往往有多层含义和多种用法,看来直接使用jieba分词还是会有不小的误差,我们得想办法来解决这个问题,不然会对分析结果造成干扰。
现在是不是有一种“我为刀俎,它为鱼肉”的感觉了。经过简单的数据处理,我们得到了每个人物的名字在小说中出现的频次,由于萧峰和乔峰是同一个人,为了方便统计将两个名字的出场次合并。
然后取出场率排名前30位的角色数据,用图表的形式展示出来。
其实《天龙八部》的中心思想就是“求不得”:
- 段誉不想学武功却练成了绝世神通
- 一心追求王语嫣最终美人对慕容复不离不弃
- 萧峰立志保卫大宋没想到自己居然是契丹人
- 决定与阿朱塞外牧马,然而造化弄人,心爱的人却死在自己手上
这里我们仅提取词长度不小于4的成语、俗语和短语进行分析。同时,考虑到某些人名(例如:上官婉儿、澹台灭明)等专有名词会对分析结果造成干扰,在分词取词的时候可以一并过滤掉,最终得到这样一份词语文件:
2.云图
对用词习惯的分析更倾向于定性分析,我们这里使用词云图来作展示,首先绘制《萍踪侠影录》的词云图。
我们可以看到在这篇小说中“微微一笑”、“哈哈大笑”、“大吃一惊”、“非同小可”等词语使用频率非常高,再来看另一部作品《女帝奇英传》,词云图如下:
进群:125240963 即可获取数十套PDF哦!
标签:
版权申明:本站文章部分自网络,如有侵权,请联系:west999com@outlook.com
特别注意:本站所有转载文章言论不代表本站观点,本站所提供的摄影照片,插画,设计作品,如需使用,请与原作者联系,版权归原作者所有
- 了解Python控制流语句——if语句 2019-04-11
- Python助你抢红包!Python还没有做不到的事,除了生孩子! 2019-03-13
- python中传值和传地址问题 2018-11-22
- 看日本电影真痛苦,本来就听不懂!还没字幕!6行代码音频转 2018-07-27
- 扫雷我还没有过不去的难度关!因为Python可以破解任意难度的 2018-07-16
IDC资讯: 主机资讯 注册资讯 托管资讯 vps资讯 网站建设
网站运营: 建站经验 策划盈利 搜索优化 网站推广 免费资源
网络编程: Asp.Net编程 Asp编程 Php编程 Xml编程 Access Mssql Mysql 其它
服务器技术: Web服务器 Ftp服务器 Mail服务器 Dns服务器 安全防护
软件技巧: 其它软件 Word Excel Powerpoint Ghost Vista QQ空间 QQ FlashGet 迅雷
网页制作: FrontPages Dreamweaver Javascript css photoshop fireworks Flash