php计算字符串相似度similar_text
- 2019 年 11 月 27 日
- 筆記
因为发送邮件要限制发送频率,有一些邮件都是同类型的邮件,只是时间不一样,这样就需要判断发送邮件内容的相似度。网上找了相关方法,发现这个 similar_text 是可以用的,而且很好用,不会有计算不准的情况。有时候不自己试试,真的很容易被网上的言论误导。
similar_text计算字符串相似度
实际上 similar_text 接收3个参数,第3个参数是引用传递,表示相似百分比,函数是返回相似的字节数,且看代码:
<?php // 计算文件相似度 // 两个字符串相差 "技术" 和 "http://" $str1 = "快乐编程是一个通俗易懂的技术博客www.01happy.com"; $str2 = "快乐编程是一个通俗易懂的博客http://www.01happy.com"; echo similar_text($str1, $str2, $percent); // 输出 57, 实际上就是相似字符串的长度: strlen("快乐编程是一个通俗易懂的") + strlen("博客") + strlen("www.01happy.com") echo PHP_EOL; echo $percent; // 输出 89.763779527559
levenshtein函数计算两个字符串编辑距离
另外还有一个函数可以用来计算从字符串1转化到字符串2需要的编辑距离,俗称操作步数,且看代码:
<?php // 计算字符串1到字符串2的编辑距离 // 两个字符串相差 "技术" 和 "http://" $str1 = "快乐编程是一个通俗易懂的技术博客www.01happy.com"; $str2 = "快乐编程是一个通俗易懂的博客http://www.01happy.com"; echo levenshtein($str1, $str2); // 输出13, 实际上就是差异字符串的长度:strlen("技术") + strlen("http://")