简历有错别字被拒绝聘用?文档被领导说?Python…
2018-07-16 02:49:50来源:博客园 阅读 ()
找出中文错别字
1.5 代码获取
你可以通过下面命令将代码下载到实验楼环境中,作为参照对比进行学习。
$ wget http://labfile.oss.aliyuncs.com/courses/828/Document.tar
可以预想到,假设我们的语料库长度为 n ,我们可以以 O(1) 的时间复杂度来完成增添条目和查找条目的工作(因为我们给每个单词都设定了ID,所以可以直接访问前后关系对应的内存块),但是这个矩阵会占据 O(n*n)的空间,而且这是一个稀疏矩阵,很多的空间被浪费了。
三、开发准备
打开Xfce终端,进入 Code 目录,创建 ChineseSpellingCheck 文件夹, 将其作为课程的工作目录。
本次实验建议在 virtualenv 环境下进行。
关于 virtualenv,请看 virtualenv 介绍
首先安装 virtualenv
私信小编007即可获取数十套PDF哦!
五、实验步骤
5.1 实现前后关系字典
创建文件夹 Code
在 Code 文件夹中创建文件 CountOfNumbers.py
我们先导入我们这次实验需要的包
word[0].encode("UTF-8") 的作用是检测英文的出现,如果一个中文字符如果没有通过 "UTF-8" 编码,也会被isalpha() 函数认为是一个英文字符。
我们继续我们的 CountOfNumbers.py 的编写
由于这个系统服务的对象是实验楼未来的文档,所以最佳的语料库就是实验楼现有的众多文档。在上一节中我们已经学习了怎么样创建并保存我们的 前后关系 字典。由于实验楼内部的文档不方便公开,我们没有直接提供语料库,而是提供了最终生成的字典。
之前也讨论了,再大的语料库,都不可能覆盖所有中文单词搭配。所以我们需要搜索引擎的场外助攻。
首先请下载我们的数据
查看网站的源码,我们发现有关 创建文档 的标题都用 <strong> 标签标示了出来。
如果一个搭配不常出现。
搜索引擎会自动询问 是否只需要 --- 的结果
或者搜索引擎的标题中很少有该中文单词搭配的高亮结果。
我们还需要一个函数来判断这个搭配是否常用。这个函数相对来说比较简单,如果我们的单词单配在搜索引擎中出现次数超过3次,那么我们就认为它是一个常见的搭配。
获得我们的数据,并对测试文件进行分词。把没有在前后关系文档中出现的搭配放到 SuspiciousList 当中去。( suspicious adj.有嫌疑的)
获得了 SuspiciousList 之后,我们可以通过搜索引擎的判断来获得最终的错误单词列表 WrongWordList
5.4 把错误的单词在HTML文件中高亮
我们在找出错误的单词之后,肯定想看一看单词在原文中的位置方便修改。实验楼所有的文档都是 .md 的 MarkDown 格式书写的,没有办法直接高亮。但是我们可以吧 MarkDown 解析成 HTML 然后在网页上对错误的单词进行高亮操作。
怎么样,是不是很难?
进群:125240963 即可获取数十套PDF哦!
标签:
版权申明:本站文章部分自网络,如有侵权,请联系:west999com@outlook.com
特别注意:本站所有转载文章言论不代表本站观点,本站所提供的摄影照片,插画,设计作品,如需使用,请与原作者联系,版权归原作者所有
下一篇:Python迭代器和生成器
- python3.7 pip升级或安装,拒绝访问 解决方案 2019-07-24
- MS02-018中的FTP拒绝服务漏洞利用程序 2008-04-09
IDC资讯: 主机资讯 注册资讯 托管资讯 vps资讯 网站建设
网站运营: 建站经验 策划盈利 搜索优化 网站推广 免费资源
网络编程: Asp.Net编程 Asp编程 Php编程 Xml编程 Access Mssql Mysql 其它
服务器技术: Web服务器 Ftp服务器 Mail服务器 Dns服务器 安全防护
软件技巧: 其它软件 Word Excel Powerpoint Ghost Vista QQ空间 QQ FlashGet 迅雷
网页制作: FrontPages Dreamweaver Javascript css photoshop fireworks Flash