帮助 关于我们

返回检索结果

基于长度过滤和动态容错的SNM改进算法
Improved SNM algorithm based on length filtering and dynamic fault-tolerance

查看参考文献18篇

文摘 数据仓库中相似重复记录的清洗对于数据质量影响很大,传统的基本邻近排序算法(sorted-neighborhood method,SNM)时间效率和准确率均不高。针对SNM算法的缺陷,提出了一种基于长度过滤和动态容错的SNM改进算法。根据两条记录的长度比例和属性缺失情况,首先排除一部分不可能构成相似重复记录的数据,减少比较次数,提高检测效率;进一步提出了动态容错法,校准字段相似度评判结果,解决了因属性缺失而误判的问题,提高了准确率。针对实际数据集的实验分析表明,在相同的运算环境下,优化算法在准确率和时间效率上有明显优势。
其他语种文摘 In data warehouse systems,cleaning similar and duplicated records could effectively impact data quality. Traditional SNM(sorted-neighborhood method) has performance issues with time efficiency and accuracy rate. In order to improve its performance,this paper proposed an enhance SNM algorithm based on length filtering and dynamic fault-tolerance (LFSNM). Firstly,it improved the detection efficiency by excluding the records which were impossible to be duplicated according to the length proportion and attribute absence of two records. Then,it calibrated field similarity results using dynamic fault-tolerance method. It ensured accuracy even though some attributes were absent. Experimental results indicate that the LF-SNM performs obviously better than traditional SNM method on actual datasets under the same experimental conditions.
来源 计算机应用研究 ,2017,34(1):147-150,155 【扩展库】
DOI 10.3969/j.issn.1001-3695.2017.01.031
关键词 数据清洗 ; 相似重复记录 ; SNM算法 ; 动态容错 ; 字段匹配
地址

中国科学院新疆理化技术研究所, 乌鲁木齐, 830011

语种 中文
文献类型 研究性论文
ISSN 1001-3695
学科 自动化技术、计算机技术
基金 乌鲁木齐高新区发展扶持基金资助项目 ;  新疆维吾尔自治区青年科技创新人才培养工程基金资助项目
文献收藏号 CSCD:5920233

参考文献 共 18 共1页

1.  王梅. 一种列存储数据仓库中的数据复用策略. 计算机学报,2013,36(8):1626-1635 被引 4    
2.  张岩. 劣质数据库上阈值相似连接结果大小估计. 计算机学报,2012,35(10):2159-2168 被引 2    
3.  刘辉平. 一种基于模式的实体解析算法. 计算机学报,2015,38(9):1796-1808 被引 3    
4.  Fan Wenfei. Interaction between record matching and data repairing. Proc of the 30th ACM Special Interest Group on Management of Data,2011:469-472 被引 1    
5.  叶焕倬. 相似重复记录清理方法研究综述. 现代图书情报技术,2010,26(9):56-66 被引 5    
6.  庞雄文. 大数据量的高效重复记录检测方法. 华中科技大学学报,2010,38(2):8-11 被引 6    
7.  王宏志. 复杂数据上的实体识别技术研究. 计算机学报,2011,34(10):1843-1852 被引 12    
8.  于瀛. 不确定性数据库中的相似重复记录检测方法,2014 被引 1    
9.  周典瑞. 海量数据的相似重复记录检测算法. 计算机应用,2013,33(8):2208-2211 被引 2    
10.  苏伟兵. 个性化Web商务信息融合关键技术研究,2010 被引 3    
11.  蔡钟杰. 数据清理关键技术在医疗保险管理系统的应用研究,2014 被引 1    
12.  李坚. 对基于MPN数据清洗算法的改进. 计算机应用与软件,2008,25(2):245-247 被引 6    
13.  刘慧. 基于KNN的中文文本分类算法研究,2010 被引 5    
14.  刁兴春. 一种融合多种编辑距离的字符串相似度计算方法. 计算机应用研究,2010,27(12):4523-4525 被引 19    
15.  郭文龙. 基于长度过滤和有效权值的SNM改进算法. 计算机工程与应用,2014,50(19):123-127 被引 3    
16.  王宏志. 一种非清洁数据库的数据模型. 软件学报,2012,23(3):539-549 被引 5    
17.  李亚坤. 基于网络的数据清洗技术研究,2013 被引 1    
18.  陈爽. 基于伸缩窗口和等级调整的SNM改进方法. 计算机应用研究,2013,30(9):2736-2739 被引 4    
引证文献 2

1 陈力 基于双决策树的数据采样方法 计算机工程与科学,2019,41(1):130-135
被引 0 次

2 周世杰 基于字段过滤和伸缩窗口的SNM算法优化 计算机工程与科学,2022,44(4):699-706
被引 0 次

显示所有2篇文献

论文科学数据集
PlumX Metrics
相关文献

 作者相关
 关键词相关
 参考文献相关

版权所有 ©2008 中国科学院文献情报中心 制作维护:中国科学院文献情报中心
地址:北京中关村北四环西路33号 邮政编码:100190 联系电话:(010)82627496 E-mail:cscd@mail.las.ac.cn 京ICP备05002861号-4 | 京公网安备11010802043238号