基于深度学习的文本中细粒度知识元抽取方法研究
Extracting Fine-grained Knowledge Units from Texts with Deep Learning
查看参考文献27篇
文摘
|
【目的】改进Bootstrapping方法,建立深度学习模型从文本中抽取多类型细粒度的知识元。【方法】利用搜索引擎和Elsevier关键词构建知识元词库;基于Bootstrapping技术自动构建大规模的标注语料库,利用知识元评分模型和模式评分模型控制标注的质量;基于已标注多类型知识元的语料库训练LSTM-CRF模型,从文本中抽取新的知识元。【结果】基于17 756篇ACL论文摘要抽取“研究范畴”、“研究方法”、“实验数据”、“评价指标及取值”这4种知识元,其人工评价平均正确率为91%。【局限】模型参数的预设与调整需要人工参与,未对不同领域文本进行适用性验证。【结论】引入知识元与模式的评分模型,能够有效缓解“语义漂移”问题;基于深度学习模型抽取知识元实现快速且正确率高,为情报大数据智能分析提供了一种高效可靠的数据获取手段。 |
其他语种文摘
|
[Objective] This paper tries to extract fine-grained knowledge units from texts with a deep learning model based on the modified bootstrapping method.[Methods] First,we built the lexicon for each type of knowledge unit with the help of search engine and keywords from Elsevier.Second,we created a large annotated corpus based on the bootstrapping method.Third,we controlled the quality of annotation with the estimation models of patterns and knowledge units.Finally,we trained the proposed LSTM-CRF model with the annotated corpus,and extracted new knowledge units from texts.[Results] We retrieved four types of knowledge units(study scope,research method,experimental data,as well as evaluation criteria and their values) from 17,756 ACL papers.The average precision was 91%,which was calculated manually.[Limitations] The parameters of models were pre-defined and modified by human.More research is needed to evaluate the performance of this method with texts from other domains.[Conclusions] The proposed model effectively addresses the issue of semantic drifting.It could extract knowledge units precisely,which is an effective solution for the big data acquisition process of intelligence analysis. |
来源
|
数据分析与知识发现
,2019,3(1):38-45 【扩展库】
|
DOI
|
10.11925/infotech.2096-3467.2018.1352
|
关键词
|
知识元抽取
;
命名实体识别
;
深度学习
;
Bootstrapping
;
LSTM-CRF
|
地址
|
1.
中国科学院文献情报中心, 北京, 100190
2.
资源与环境信息系统国家重点实验室, 资源与环境信息系统国家重点实验室, 北京, 100101
3.
中国科学院大学图书情报与档案管理系, 北京, 100190
|
语种
|
中文 |
文献类型
|
研究性论文 |
ISSN
|
2096-3467 |
学科
|
自动化技术、计算机技术 |
基金
|
国家自然科学基金项目
;
国家社会科学基金
;
中国科学院文献情报中心青年创新团队项目
|
文献收藏号
|
CSCD:6552313
|
参考文献 共
27
共2页
|
1.
高继平. 知识元研究述评.
情报理论与实践,2015,38(7):134-138
|
被引
2
次
|
|
|
|
2.
钱力. 基于科技文献的研究设计指纹描述框架研究.
大学图书馆学报,2015,33(1):14-20
|
被引
2
次
|
|
|
|
3.
刘则渊.
知识图谱的若干问题思考,2010
|
被引
2
次
|
|
|
|
4.
祝清松. 基于引文内容分析的高被引论文主题识别研究.
中国图书馆学报,2014,40(1):39-49
|
被引
15
次
|
|
|
|
5.
王子璇. 基于WMD语义相似度的TextRank改进算法识别论文核心主题句研究.
数据分析与知识发现,2017,1(4):1-8
|
被引
4
次
|
|
|
|
6.
丁恒. 标准文献知识服务系统设计与实现.
现代图书情报技术,2016(7/8):120-128
|
被引
1
次
|
|
|
|
7.
Augenstein I. SemEval 2017 Task 10: ScienceIE-Extracting Keyphrases and Relations from Scientific Publications.
Proceedings of the 11th International Workshop on Semantic Evaluation (SemEval-2017),2017
|
被引
1
次
|
|
|
|
8.
曾文. 科技文献术语的自动抽取技术研究与分析.
现代图书情报技术,2014(1):51-55
|
被引
4
次
|
|
|
|
9.
Gupta S. Analyzing the Dynamics of Research by Extracting Key Aspects of Scientific Papers.
Proceedings of the 5th International Joint Conference on Natural Language Processing,2011
|
被引
1
次
|
|
|
|
10.
郭红梅. 基于多重文本关系图中clique子团聚类的主题识别方法研究.
情报学报,2017,36(5):433-442
|
被引
3
次
|
|
|
|
11.
秦晓慧. 面向单篇文献引文网络的主题来源与走向追踪.
现代图书情报技术,2015(9):52-59
|
被引
1
次
|
|
|
|
12.
Tateisi Y. Annotation of Computer Science Papers for Semantic Relation Extraction.
Proceedings of the 9th International Conference on Language Resources and Evaluation (LREC'14),2014
|
被引
1
次
|
|
|
|
13.
Zadeh B Q. The ACL RD-TEC 2.0: A Language Resource for Evaluating Term Extraction and Entity Recognition Methods.
Proceedings of the Language Resources & Evaluation Conference,2016
|
被引
1
次
|
|
|
|
14.
钱力. 科技论文的研究设计指纹自动识别方法构建与实现.
图书情报工作,2018,62(2):135-143
|
被引
4
次
|
|
|
|
15.
郭少卿. 科技论文中数值指标实际取值识别.
数据分析与知识发现,2018,2(1):21-28
|
被引
2
次
|
|
|
|
16.
Dan S. Which Techniques does Your Application Use?: An Information Extraction Framework for Scientific Articles.
arXiv: 1608.06386
|
被引
1
次
|
|
|
|
17.
Singh M. App TechMiner: Minging Applications and Techniques from Scientific Articles.
Proceedings of the 6th International Workshop on Mining Scientific Publications,2017:1-8
|
被引
4
次
|
|
|
|
18.
Tsai C T. Concept-based Analysis of Scientific Literature.
Proceedings of the 22nd ACM International Conference on Information & Knowledge Management,2013:1733-1738
|
被引
9
次
|
|
|
|
19.
周雷. 面向技术机会发现TOD的专利信息抽取--韩国科学技术信息研究院KISTI语义服务.
情报工程,2015,1(2):31-37
|
被引
1
次
|
|
|
|
20.
Tseng H Y. Measuring Efficiencies of Incubation Centers in Taiwan: An Application of Text Mining and Data Envelopment Analysis.
Transylvanian Review,2017,18:75
|
被引
1
次
|
|
|
|
|