首页 > > 网络编程 > 其它 >

字符串相似度算法-LEVENSHTEIN DISTANCE算法

2018-06-18 02:41:52来源：未知阅读 ()

Levenshtein Distance 算法，又叫 Edit Distance 算法，是指两个字符串之间，由一个转成另一个所需的最少编辑操作次数。许可的编辑操作包括将一个字符替换成另一个字符，插入一个字符，删除一个字符。一般来说，编辑距离越小，两个串的相似度越大。

算法实现原理图解：

a.首先是有两个字符串,这里写一个简单的 abc 和 abe

b.将字符串想象成下面的结构。

A 处是一个标记，为了方便讲解，不是这个表的内容。

	abc	a	b	c
abe	0	1	2	3
a	1	A处
b	2
e	3

c.来计算 A 处出得值

它的值取决于：左边的 1、上边的 1、左上角的 0。

按照 Levenshtein distance 的意思：

上面的值加 1 ，得到 1+1=2 ，

左面的值加 1 ，得到 1+1=2 ，

左上角的值根据字符是否相同，相同加 0 ，不同加 1 。A 处由于是两个 a 相同，左上角的值加 0 ，得到 0+0=0 。

然后从我们上面计算出来的 2，2，0 三个值中选取最小值，所以 A 处的值为 0 。

d.于是表成为下面的样子

	abc	a	b	c
abe	0	1	2	3
a	1	0
b	2	B处
e	3

在 B 处会同样得到三个值，左边计算后为 3 ，上边计算后为 1 ，在 B 处由于对应的字符为 a、b ，不相等，所以左上角应该在当前值的基础上加 1 ，这样得到 1+1=2 ，在（3,1,2）中选出最小的为 B 处的值。

e.于是表就更新了

	abc	a	b	c
abe	0	1	2	3
a	1	0
b	2	1
e	3	C处

C 处计算后：上面的值为 2 ，左边的值为 4 ，左上角的：a 和 e 不相同，所以加 1 ，即 2+1 ，左上角的为 3 。

在（2,4,3）中取最小的为 C 处的值。

f.于是依次推得到

		a	b	c
	0	1	2	3
a	1	A处 0	D处 1	G处 2
b	2	B处 1	E处 0	H处 1
e	3	C处 2	F处 1	I处 1

I 处: 表示 abc 和 abe 有1个需要编辑的操作（ c 替换成 e ）。这个是需要计算出来的。

同时，也获得一些额外的信息：

A处: 表示a 和a 需要有0个操作。字符串一样

B处: 表示ab 和a 需要有1个操作。

C处: 表示abe 和a 需要有2个操作。

D处: 表示a 和ab 需要有1个操作。

E处: 表示ab 和ab 需要有0个操作。字符串一样

F处: 表示abe 和ab 需要有1个操作。

G处: 表示a 和abc 需要有2个操作。

H处: 表示ab 和abc 需要有1个操作。

I处: 表示abe 和abc 需要有1个操作。

g.计算相似度

先取两个字符串长度的最大值 maxLen，用 1-（需要操作数除 maxLen），得到相似度。

例如 abc 和 abe 一个操作，长度为 3 ，所以相似度为 1-1/3=0.666 。

最近需要对文本内容进行对比计算相似度，找了很久还真的让我找到个现成的模块 python-Levenshtein ，这个模块用法直接用help看吧，我主要用到里面的distance和ratio，其它的暂时还不知道有什么功能。

标签：

版权申明：本站文章部分自网络，如有侵权，请联系：west999com@outlook.com
特别注意：本站所有转载文章言论不代表本站观点，本站所提供的摄影照片，插画，设计作品，如需使用，请与原作者联系，版权归原作者所有

上一篇：Python学习-使用Python爬取陈奕迅新歌《我们》网易云热门评论

下一篇：（八）面向对象基础（二）

python3 之字符串编码小结（Unicode、utf-8、gbk、gb2312等 2019-08-13
python_字符串方法 2019-08-13
python3基础之“小练习（3）” 2019-08-13
python3基础之“函数（1）” 2019-08-13
python第二天---字符串的魔法 2019-07-24

IDC资讯：主机资讯注册资讯托管资讯 vps资讯网站建设

网站运营：建站经验策划盈利搜索优化网站推广免费资源

网站联盟：联盟新闻联盟介绍联盟点评网赚技巧

行业资讯：搜索引擎网络游戏电子商务广告传媒

网络编程： Asp.Net编程 Asp编程 Php编程 Xml编程 Access Mssql Mysql 其它

服务器技术： Web服务器 Ftp服务器 Mail服务器 Dns服务器安全防护

软件技巧：其它软件 Word Excel Powerpoint Ghost Vista QQ空间 QQ FlashGet 迅雷

网页制作： FrontPages Dreamweaver Javascript css photoshop fireworks Flash

程序设计： Java技术 C/C++ VB delphi

网络知识：网络协议网络安全网络管理组网方案 Cisco技术

操作系统： Win2000 WinXP Win2003 Mac OS Linux FreeBSD

热门词条

最新资讯

热门关注

热门标签