大家都知道大数据查重却很少知道查重的原理,当然很多人只关注好不好用,能不能用就行,其他的无所谓那不是自己要考虑的,交给商家考虑就行。但我还是来说说查重的原理,让大家对大数据查重有更深层次的了解,让有些对这方面有兴趣或者想自己制作查重的朋友更加清楚。
大数据查重,主要是看提交的论文,对照比较数据库的文章,综合查重的。不同的平台所对比度数据库是不同的,包括国内重要的论文数据库,专利论文数据库,重要的报纸数据库,该有的都会有,但是同样的论文内容收录太多反而会算重复率。其实查重的算法其实大同小异,总体相似度 = 相似字数 / 检测字数,相似字数一般用杰卡德相似系数,两个集合A和B的交集元素在A,B的并集中所占的比例,称为两个集合的杰卡德相似系数,用符号J(A,B)表示。J(A,B)=|A交B|/|A并B|。杰卡德相似系数是衡量两个集合的相似度一种指标。但jaccard算法不适合协同过滤,因为在协同过滤中,评分是一个很关键的参考因素,而jaccard算法忽略了其中的评分环节。杰卡德相似度适合用于隐式反馈数据。例如,使用用户的收藏行为,计算用户之间的相似度,杰卡德相似度就适合来承担这个任务。
算法其实很简单,难的是要有自己的对比库,查重企业的对比库都是花了很多时间和金钱搭建的,如果想要自己企业也有查重服务,也没必要大费周章重新搭建数据库,这是很费事费力的,可以从其他企业连一个接口过来这样就可以使用他们的对比库了。
Tocheck致力于文本相似度检测技术的研究和开发,为企事业单位提供标书查重、项目申报/专利查重、员工论文查重、企业信息资产安全保护等多种服务。