掌握文本相似度计算?深入文本进阶处理
知识引入文本相似度:A和B的共性信息描述A和B的全部信息
知识引入相似度与语义距离:调节因子保证当语义距离为0时具有意义之间的非负语义距离
欧式距离曼哈顿距离编辑距离杰卡德距离余弦相似度哈罗距离
欧式距离欧式距离:例:计算“产品经理”和“产品经理是什么”之间的欧氏距离设置文本向量设置文本向量规定算得
欧式距离适用:文本编码检测。移位/错字这是一篇文本相似度的文章这是一篇文本相似度文章位置/距离我的名字是孙行者孙行者是我的名字
曼哈顿距离曼哈顿距离:应用场景与欧式距离类似。
编辑距离编辑距离:莱文斯坦(Levenshtein)距离将文本A编辑成文本B需要的最少变动次数。每次只能增加、删除或修改一个字。对称性椰子→椰子树:椰子+树→椰子树编辑距离=1椰子树→椰子:椰子树-树→椰子编辑距离=1
编辑距离编辑距离与文本顺序有关。例:椰子、子椰的编辑距离=2“椰子”→删除“子”→“椰”→增加“子”→“子椰”。“椰子”→删除“椰”→“子”→增加“椰”→“子椰”。“椰子”→“子”变“椰”→“椰椰”→“椰”变“子”→“子椰”。“椰子”→“椰”变“子”→“子子”→“子”变“椰”→“子椰”。
编辑距离若文本的编辑距离小,则文本相似度高。虽然漏判高相似度的文本,但是可确保通过编辑距离筛选的文本相似度一定很高。漏判情况:批发零售、零售批发。
杰卡德距离杰卡德相似度:杰卡德距离:计算“目不转睛”和“目不暇接”的Jaccard相似度交集:{目,不}并集:{目,不,转,睛,暇,接}Jaccard相似度
杰卡德距离适用于对字/词顺序不敏感的文本判断论文相似度。不适用于重复字符较多的文本这是是是是是是一个文本。这是一个文文文文文文本。不适用于对文字顺序敏感的场景一九三八年。一八三九年。
余弦相似度余弦相似度:例:一把雨伞、下雨了开把伞并集:{一,把,雨,伞,下,了,开}并集中的第1个字在文本一中出现了n次,则得
余弦相似度性质:与文本的交集高度相关。考虑到文本的频次这是是是是是是一个文本。这是一个文文文文文文本。余弦相似度:39%。
余弦相似度不太适用:向量之间方向相同但大小不同的情况。太棒了:向量(1,1,1)太棒了太棒了太棒了:向量(3,3,3)相似度100%
哈罗距离哈罗距离:对两个字符串的相似度进行衡量,以得出两个字符串的相似程度。m:两个字符串中相互匹配的字符数量。和:两个字符串的长度(字符数量)。t:换位数量。
哈罗距离适用:用于对位置、顺序敏感的文本。考虑文本位置偏移、顺序变换的影响。既不希望位置或顺序变了相似度却保持不变。又不希望直接“一刀切”将相似度变为0。