通常我们从不同来源获取到的文本或内容以后,发现数据中存在重复或者相似的问题,我们需要根据文本内容对其进行去重,常见的解决办法有余弦算法、欧式距离、SimHash算法等,我们采用simhash算法。
simhash算法可以将原始的文本内容映射为一个不太长的数字,也就是hash编码,较为相近的内容对应的编码也相近。这样我们就可以将比较文本相似转换为比较数字串的差异。


还有80%的精彩内容
请使用微信扫码支付
请使用支付宝扫码支付
Category
Tags

No responses yet

发表回复

您的电子邮箱地址不会被公开。 必填项已用 * 标注

Copyright©2017-2022 www.hooyuu.com 版权所有 京ICP备17019716号-1