帮助 关于我们

返回检索结果

基于深度学习的文本中细粒度知识元抽取方法研究
Extracting Fine-grained Knowledge Units from Texts with Deep Learning

查看参考文献27篇

余丽 1,2   钱力 1,3 *   付常雷 1   赵华茗 1  
文摘 【目的】改进Bootstrapping方法,建立深度学习模型从文本中抽取多类型细粒度的知识元。【方法】利用搜索引擎和Elsevier关键词构建知识元词库;基于Bootstrapping技术自动构建大规模的标注语料库,利用知识元评分模型和模式评分模型控制标注的质量;基于已标注多类型知识元的语料库训练LSTM-CRF模型,从文本中抽取新的知识元。【结果】基于17 756篇ACL论文摘要抽取“研究范畴”、“研究方法”、“实验数据”、“评价指标及取值”这4种知识元,其人工评价平均正确率为91%。【局限】模型参数的预设与调整需要人工参与,未对不同领域文本进行适用性验证。【结论】引入知识元与模式的评分模型,能够有效缓解“语义漂移”问题;基于深度学习模型抽取知识元实现快速且正确率高,为情报大数据智能分析提供了一种高效可靠的数据获取手段。
其他语种文摘 [Objective] This paper tries to extract fine-grained knowledge units from texts with a deep learning model based on the modified bootstrapping method.[Methods] First,we built the lexicon for each type of knowledge unit with the help of search engine and keywords from Elsevier.Second,we created a large annotated corpus based on the bootstrapping method.Third,we controlled the quality of annotation with the estimation models of patterns and knowledge units.Finally,we trained the proposed LSTM-CRF model with the annotated corpus,and extracted new knowledge units from texts.[Results] We retrieved four types of knowledge units(study scope,research method,experimental data,as well as evaluation criteria and their values) from 17,756 ACL papers.The average precision was 91%,which was calculated manually.[Limitations] The parameters of models were pre-defined and modified by human.More research is needed to evaluate the performance of this method with texts from other domains.[Conclusions] The proposed model effectively addresses the issue of semantic drifting.It could extract knowledge units precisely,which is an effective solution for the big data acquisition process of intelligence analysis.
来源 数据分析与知识发现 ,2019,3(1):38-45 【扩展库】
DOI 10.11925/infotech.2096-3467.2018.1352
关键词 知识元抽取 ; 命名实体识别 ; 深度学习 ; Bootstrapping ; LSTM-CRF
地址

1. 中国科学院文献情报中心, 北京, 100190  

2. 资源与环境信息系统国家重点实验室, 资源与环境信息系统国家重点实验室, 北京, 100101  

3. 中国科学院大学图书情报与档案管理系, 北京, 100190

语种 中文
文献类型 研究性论文
ISSN 2096-3467
学科 自动化技术、计算机技术
基金 国家自然科学基金项目 ;  国家社会科学基金 ;  中国科学院文献情报中心青年创新团队项目
文献收藏号 CSCD:6552313

参考文献 共 27 共2页

1.  高继平. 知识元研究述评. 情报理论与实践,2015,38(7):134-138 被引 2    
2.  钱力. 基于科技文献的研究设计指纹描述框架研究. 大学图书馆学报,2015,33(1):14-20 被引 2    
3.  刘则渊. 知识图谱的若干问题思考,2010 被引 2    
4.  祝清松. 基于引文内容分析的高被引论文主题识别研究. 中国图书馆学报,2014,40(1):39-49 被引 15    
5.  王子璇. 基于WMD语义相似度的TextRank改进算法识别论文核心主题句研究. 数据分析与知识发现,2017,1(4):1-8 被引 4    
6.  丁恒. 标准文献知识服务系统设计与实现. 现代图书情报技术,2016(7/8):120-128 被引 1    
7.  Augenstein I. SemEval 2017 Task 10: ScienceIE-Extracting Keyphrases and Relations from Scientific Publications. Proceedings of the 11th International Workshop on Semantic Evaluation (SemEval-2017),2017 被引 1    
8.  曾文. 科技文献术语的自动抽取技术研究与分析. 现代图书情报技术,2014(1):51-55 被引 4    
9.  Gupta S. Analyzing the Dynamics of Research by Extracting Key Aspects of Scientific Papers. Proceedings of the 5th International Joint Conference on Natural Language Processing,2011 被引 1    
10.  郭红梅. 基于多重文本关系图中clique子团聚类的主题识别方法研究. 情报学报,2017,36(5):433-442 被引 3    
11.  秦晓慧. 面向单篇文献引文网络的主题来源与走向追踪. 现代图书情报技术,2015(9):52-59 被引 1    
12.  Tateisi Y. Annotation of Computer Science Papers for Semantic Relation Extraction. Proceedings of the 9th International Conference on Language Resources and Evaluation (LREC'14),2014 被引 1    
13.  Zadeh B Q. The ACL RD-TEC 2.0: A Language Resource for Evaluating Term Extraction and Entity Recognition Methods. Proceedings of the Language Resources & Evaluation Conference,2016 被引 1    
14.  钱力. 科技论文的研究设计指纹自动识别方法构建与实现. 图书情报工作,2018,62(2):135-143 被引 4    
15.  郭少卿. 科技论文中数值指标实际取值识别. 数据分析与知识发现,2018,2(1):21-28 被引 2    
16.  Dan S. Which Techniques does Your Application Use?: An Information Extraction Framework for Scientific Articles. arXiv: 1608.06386 被引 1    
17.  Singh M. App TechMiner: Minging Applications and Techniques from Scientific Articles. Proceedings of the 6th International Workshop on Mining Scientific Publications,2017:1-8 被引 4    
18.  Tsai C T. Concept-based Analysis of Scientific Literature. Proceedings of the 22nd ACM International Conference on Information & Knowledge Management,2013:1733-1738 被引 9    
19.  周雷. 面向技术机会发现TOD的专利信息抽取--韩国科学技术信息研究院KISTI语义服务. 情报工程,2015,1(2):31-37 被引 1    
20.  Tseng H Y. Measuring Efficiencies of Incubation Centers in Taiwan: An Application of Text Mining and Data Envelopment Analysis. Transylvanian Review,2017,18:75 被引 1    
引证文献 6

1 周海晨 学术全文本的学术创新贡献识别探索 情报学报,2020,39(8):845-851
被引 3

2 李娇 基于多因子算法的自动分类研究 数据分析与知识发现,2020,4(11):43-51
被引 0 次

显示所有6篇文献

论文科学数据集
PlumX Metrics
相关文献

 作者相关
 关键词相关
 参考文献相关

版权所有 ©2008 中国科学院文献情报中心 制作维护:中国科学院文献情报中心
地址:北京中关村北四环西路33号 邮政编码:100190 联系电话:(010)82627496 E-mail:cscd@mail.las.ac.cn 京ICP备05002861号-4 | 京公网安备11010802043238号