简历有错别字被拒绝聘用?文档被领导说?Python…

2018-07-16 02:49:50来源:博客园 阅读 ()

新老客户大回馈,云服务器低至5折

找出中文错别字

简历有错别字被拒绝聘用?文档被领导说?Python实现永无错别字!

 

1.5 代码获取

你可以通过下面命令将代码下载到实验楼环境中,作为参照对比进行学习。

$ wget http://labfile.oss.aliyuncs.com/courses/828/Document.tar

简历有错别字被拒绝聘用?文档被领导说?Python实现永无错别字!

 

可以预想到,假设我们的语料库长度为 n ,我们可以以 O(1) 的时间复杂度来完成增添条目和查找条目的工作(因为我们给每个单词都设定了ID,所以可以直接访问前后关系对应的内存块),但是这个矩阵会占据 O(n*n)的空间,而且这是一个稀疏矩阵,很多的空间被浪费了。

简历有错别字被拒绝聘用?文档被领导说?Python实现永无错别字!

 

三、开发准备

打开Xfce终端,进入 Code 目录,创建 ChineseSpellingCheck 文件夹, 将其作为课程的工作目录。

本次实验建议在 virtualenv 环境下进行。

关于 virtualenv,请看 virtualenv 介绍

首先安装 virtualenv

简历有错别字被拒绝聘用?文档被领导说?Python实现永无错别字!

 

简历有错别字被拒绝聘用?文档被领导说?Python实现永无错别字!

 

私信小编007即可获取数十套PDF哦!

五、实验步骤

5.1 实现前后关系字典

创建文件夹 Code

在 Code 文件夹中创建文件 CountOfNumbers.py

我们先导入我们这次实验需要的包

简历有错别字被拒绝聘用?文档被领导说?Python实现永无错别字!

 

word[0].encode("UTF-8") 的作用是检测英文的出现,如果一个中文字符如果没有通过 "UTF-8" 编码,也会被isalpha() 函数认为是一个英文字符。

我们继续我们的 CountOfNumbers.py 的编写

简历有错别字被拒绝聘用?文档被领导说?Python实现永无错别字!

 

简历有错别字被拒绝聘用?文档被领导说?Python实现永无错别字!

 

简历有错别字被拒绝聘用?文档被领导说?Python实现永无错别字!

 

由于这个系统服务的对象是实验楼未来的文档,所以最佳的语料库就是实验楼现有的众多文档。在上一节中我们已经学习了怎么样创建并保存我们的 前后关系 字典。由于实验楼内部的文档不方便公开,我们没有直接提供语料库,而是提供了最终生成的字典。

之前也讨论了,再大的语料库,都不可能覆盖所有中文单词搭配。所以我们需要搜索引擎的场外助攻。

首先请下载我们的数据

简历有错别字被拒绝聘用?文档被领导说?Python实现永无错别字!

 

简历有错别字被拒绝聘用?文档被领导说?Python实现永无错别字!

 

查看网站的源码,我们发现有关 创建文档 的标题都用 <strong> 标签标示了出来。

如果一个搭配不常出现。

简历有错别字被拒绝聘用?文档被领导说?Python实现永无错别字!

 

搜索引擎会自动询问 是否只需要 --- 的结果

或者搜索引擎的标题中很少有该中文单词搭配的高亮结果。

简历有错别字被拒绝聘用?文档被领导说?Python实现永无错别字!

 

简历有错别字被拒绝聘用?文档被领导说?Python实现永无错别字!

 

我们还需要一个函数来判断这个搭配是否常用。这个函数相对来说比较简单,如果我们的单词单配在搜索引擎中出现次数超过3次,那么我们就认为它是一个常见的搭配。

简历有错别字被拒绝聘用?文档被领导说?Python实现永无错别字!

 

简历有错别字被拒绝聘用?文档被领导说?Python实现永无错别字!

 

获得我们的数据,并对测试文件进行分词。把没有在前后关系文档中出现的搭配放到 SuspiciousList 当中去。( suspicious adj.有嫌疑的)

简历有错别字被拒绝聘用?文档被领导说?Python实现永无错别字!

 

获得了 SuspiciousList 之后,我们可以通过搜索引擎的判断来获得最终的错误单词列表 WrongWordList

简历有错别字被拒绝聘用?文档被领导说?Python实现永无错别字!

 

5.4 把错误的单词在HTML文件中高亮

我们在找出错误的单词之后,肯定想看一看单词在原文中的位置方便修改。实验楼所有的文档都是 .md 的 MarkDown 格式书写的,没有办法直接高亮。但是我们可以吧 MarkDown 解析成 HTML 然后在网页上对错误的单词进行高亮操作。

简历有错别字被拒绝聘用?文档被领导说?Python实现永无错别字!

 

简历有错别字被拒绝聘用?文档被领导说?Python实现永无错别字!

 

简历有错别字被拒绝聘用?文档被领导说?Python实现永无错别字!

 

简历有错别字被拒绝聘用?文档被领导说?Python实现永无错别字!

 

简历有错别字被拒绝聘用?文档被领导说?Python实现永无错别字!

 

怎么样,是不是很难?

进群:125240963  即可获取数十套PDF哦!

标签:

版权申明:本站文章部分自网络,如有侵权,请联系:west999com@outlook.com
特别注意:本站所有转载文章言论不代表本站观点,本站所提供的摄影照片,插画,设计作品,如需使用,请与原作者联系,版权归原作者所有

上一篇:Ubuntu下安装、激活并配置Pycharm

下一篇:Python迭代器和生成器