帮助 关于我们

返回检索结果

基于规则的土壤数据校验模型研究与实现
Research and Implementation of Rule-Based Data Cleaning Model for Soil Data

查看参考文献6篇

张仁 1   沈志宏 1   黎建辉 1   施建平 2  
文摘 数据校验是数据挖掘与知识发现中的重要一环. 我国土壤观测数据由于台站观测人员上网条件、观测地记录不便以及需要适当的数据预处理等原因, 无法实行在线入库, 一般借助于Excel等软件来记录中间结果, 再提交土壤分中心, 这样的记录过程经常引入不必要的错误. 提出了一个基于可定制规则库的土壤数据校验模型. 模型主要包括数据格式转换模块、权限管理模块、元数据管理模块、重复记录去除模块、数据校验模块及规则定制与解析模块. 低侵入式的轻量级设计, 使得在大大减轻数据校验人员工作量的情况下, 原有的数据填报流程不需要改变. 可定制规则使得模型易于扩展
其他语种文摘 Data validation is one of the most important phases in KDD(Knowledge Discovery and Data Mining). Since Internet and computer are unavailable in some observation station and data preprocessing is necessary, most soil observation data in our country could not be included in database online. Most of the data are stored and preprocessed by software like Microsoft Excel before they are reported to Soil Sub-Center. These steps often lead to some uncxpected errors. We present a customizable rule based model in this paper. The model consists of several modules: Data format transformation module, Privilege management module, Metadata management module, Record De-duplication module, Data Cleansing module and Rule customization&parser module. Low-invasive and light-weight design make the model validatc data successfully while without affecting the old data entry system. At the same time, Customizable Rule makes the model much easier to extend
来源 计算机系统应用 ,2010,19(8):78-81,65 【扩展库】
关键词 数据校验 ; 基于规则 ; 知识发现 ; 数据挖掘 ; 科学数据
地址

1. 中国科学院计算机网络信息中心, 北京, 100190  

2. 中国科学院南京土壤所, 江苏, 南京, 210008

语种 中文
文献类型 研究性论文
ISSN 1003-3254
学科 自动化技术、计算机技术
基金 中国科学院"十一五"专项项目 ;  中国科学院知识创新工程重要方向项目
文献收藏号 CSCD:3978504

参考文献 共 6 共1页

1.  Maletic JI. A Marcus Data Cleansing: Beyond Integrity Analysis. Proc.of the Conference on Information Quality,2000:200-209 被引 1    
2.  郭志懋. 数据质量和数据清洗研究综述. 软件学报,2002,13(11):2076-2082 被引 71    
3.  Raman V. Potter's wheel:an interactive data cleaning system. Proceedings of the 27th International Conference on Very Large Data Bases,2001:381-390 被引 4    
4.  Wang X. An Ontology-Based Approach to Data Cleaning. Technical Report,2005 被引 1    
5.  Rahm E. Data cleaning:problems and current approaches. IEEE Data Engineering Bulletin,2000,23(4):3-13 被引 46    
6.  叶舟. 基于规则引擎的数据清洗. 计算机工程,2006,32(23):52-54 被引 9    
引证文献 0 篇
论文科学数据集
PlumX Metrics
相关文献

 作者相关
 关键词相关
 参考文献相关

版权所有 ©2008 中国科学院文献情报中心 制作维护:中国科学院文献情报中心
地址:北京中关村北四环西路33号 邮政编码:100190 联系电话:(010)82627496 E-mail:cscd@mail.las.ac.cn 京ICP备05002861号-4 | 京公网安备11010802043238号