科技大数据增值丰富化方法研究与工具研发
Methodology and Tools to Enrich Sci-Tech Big Data
查看参考文献18篇
文摘
|
【目的】解决科技大数据数据源分散、质量不高、内容单薄等问题。【方法】采用数据清洗、实体对齐、实体字段融合、冲突检测等增值计算方法,设计开发一套科技大数据增值丰富化的工具。【结果】通过本文研发的丰富化工具,在人员、机构、会议、期刊实体及实体关系层面实现实体数据对齐,实体字段内容增加5-10倍,实体分析维度提升2-3倍。【局限】增值数据的及时性、规范性需要结合服务需求在实际应用中不断优化提升。【结论】研究成果提升了科技大数据知识发现平台以及相关情报智能分析系统的数据服务维度及深度。 |
其他语种文摘
|
[Objective] This paper tries to address the issues facing sci-tech big data,such as source dispersal,low quality,and poor content.[Methods] We used value-added computing methods,such as data cleansing,entity alignment,entity field fusion,conflict detection,etc.,to develop tools for the enrichment of sci-tech big data.[Results] The developed tools achieved entity data alignment at the levels of personnel,organization,conference,journal and relationship among them.The contents of the entity fields were increased by 5 to 10 times,and the entity analysis dimension was increased by 2 to 3 times.[Limitations] The timeliness and standardization of value-added data need to be optimized and improved based on service needs.[Conclusions] The proposed methods and tools enhance the knowledge discovery of the sci-tech big data and intelligent information analysis systems. |
来源
|
数据分析与知识发现
,2019,3(7):113-122 【扩展库】
|
DOI
|
10.11925/infotech.2096-3467.2018.1355
|
关键词
|
科技大数据
;
数据增值
;
丰富化方法
|
地址
|
1.
中国科学院文献情报中心, 北京, 100190
2.
中国科学院大学经济与管理学院图书情报与档案管理系, 北京, 100190
|
语种
|
中文 |
文献类型
|
研究性论文 |
ISSN
|
2096-3467 |
学科
|
自动化技术、计算机技术 |
基金
|
国家科技图书文献中心下一代国家科技创新开放知识服务系统项目
;
中国科学院文献情报能力建设专项项目
|
文献收藏号
|
CSCD:6698711
|
参考文献 共
18
共1页
|
1.
倪芳. Web服务在多源异构农业数据融合上的应用研究.
计算机技术与发展,2016,26(8):129-133
|
被引
1
次
|
|
|
|
2.
陆百川. 基于多源交通数据融合的短时交通流预测.
重庆交通大学学报:自然科学版,2019,38(5):13-19,56
|
被引
7
次
|
|
|
|
3.
张卫东. 政府网站信息资源知识融合体系架构设计.
图书情报工作,2018,62(17):112-119
|
被引
1
次
|
|
|
|
4.
程秀峰. 科研数据管理系统中增值服务调查研究.
情报科学,2018,36(10):77-83
|
被引
1
次
|
|
|
|
5.
于倩倩. NSTL集成利用第三方来源元数据的实践与探索.
现代图书情报技术,2016(1):97-102
|
被引
1
次
|
|
|
|
6.
田磊.
主题爬虫搜索策略的设计与实现,2017
|
被引
1
次
|
|
|
|
7.
王颖. 面向科技文献的语义检索系统研究综述.
现代图书情报技术,2015(5):1-7
|
被引
2
次
|
|
|
|
8.
孙海霞. 科技文献数据库中机构名称匹配策略研究.
数据分析与知识发现,2018,2(8):88-97
|
被引
5
次
|
|
|
|
9.
刘琨. 我国图情领域名称规范文献计量研究.
图书馆工作与研究,2017(12):66-71
|
被引
1
次
|
|
|
|
10.
孟小峰. 大数据融合研究:问题与挑战.
计算机研究与发展,2016,53(2):231-246
|
被引
32
次
|
|
|
|
11.
Zhu Z. Developing Institutional Repositories Network: Taking IR Grid at Chinese Academy of Sciences as an Example.
Chinese Journal of Library and Information Science,2011,4(Z1):24-34
|
被引
1
次
|
|
|
|
12.
张建勇. 中国ORCID注册平台iAuthor的设计与实现.
现代图书情报技术,2015(3):84-91
|
被引
2
次
|
|
|
|
13.
Vidal-Infer A. Public Availability of Research Data in Dentistry Journals Indexed in Journal Citation Reports.
Clinical Oral Investigations,2018,22(1):275-280
|
被引
1
次
|
|
|
|
14.
张璐杰.
国家自然科学基金项目立项同行评议质量控制研究,2015
|
被引
1
次
|
|
|
|
15.
张建勇. NSTL统一文献元数据标准的设计与思考.
数字图书馆论坛,2016(2):33-38
|
被引
2
次
|
|
|
|
16.
杨秀璋.
实体和属性对齐方法的研究与实现,2016
|
被引
3
次
|
|
|
|
17.
任平.
高校教师个人信息数据融合的研究,2017
|
被引
1
次
|
|
|
|
18.
张琳. 基于条件随机场的法言法语实体自动识别模型研究.
数据分析与知识发现,2017,1(11):46-52
|
被引
5
次
|
|
|
|
|