帮助 关于我们

返回检索结果

基于自动回标的地理实体关系语料库构建方法
Constructing the Corpus of Geographical Entity Relations Based on Automatic Annotation

查看参考文献22篇

王姬卜 1,2   陆锋 2,3   吴升 1,2   余丽 3,4 *  
文摘 地理实体关系语料库是地理信息获取与地理知识服务的基础数据资源,其规模直接影响机器学习模型训练的效果.快速更新的网络文本不断涌现新的关系实例,要求语料库及时更新以覆盖更丰富的关系实例.手工构建和更新语料库成本高昂,亟需一种快速构建大规模地理实体关系语料库的方法.本文提出一种基于回标技术的地理实体关系语料库构建方法.首先,参考地理实体分类标准与语义关系、空间关系分类标准,针对地理实体关系的自然语言描述习惯,建立地理实体关系的标注体系;然后,结合精确匹配与模糊匹配策略,提高客体匹配的覆盖率;接着,基于优序图法建立句子打分规则,实现种子三元组到句子映射的定量评价;最后,使用中文百度百科文本验证方法的有效性.实验结果显示,本文方法平均回标成功率为67.83%,关系标注的准确率为76.36%.相比人工构建空间关系标注语料库的过程,本文提出的语料自动构建方法,标注速度快,规模大,为自动扩充标注语料库提出了可行方案.同时,该方法兼顾了地理实体间的语义关系和空间关系,且关系类型不受限,可用于开放式关系抽取任务.
其他语种文摘 The corpus of geographical entity relations is the basic data resource of geographical information acquisition and geographical knowledge services, and its scale directly affects the training effect of machine learning models. Fast-updated web text is constantly emerging as a new relational example, requiring the corpus to be updated in a timely manner to cover richer relational instances. Manually constructing and updating corpus are expensive. Therefore, it needs a more efficient technology of corpus construction for massive geographical entity relations. In this paper, we propose an efficient method of corpus construction for massive geographical entity relations through the automatic annotation technique. First of all, based on encyclopedia resources, referring geographical entity classification standard and semantic relation, spatial relation classification standard to establish an annotation scheme of geographical relation, which considers both the linguistic habits of natural language and the annotation normalization. Secondly, we combine the fully- matching with the approximate matching to improve the coverage rate of object entity finding. Thirdly, we define the rules of sentence scoring by using the optimal sequence diagram method, as well as quantitatively evaluate the results of mapping the seed triples to the sentences. Finally, a series of experiments based on the Chinese BaiduBaike are carried out, which is used to verify the effectiveness of the improved automatic annotation. The results show that, the average success rate of the automatic annotation is 67.83%, and the average accuracy of the annotated relations by our method is 76.36%. Comparing with the manually annotated corpus of the spatial relations, the proposed method constructed a large- scale corpus of geographical entity relations more efficiently, which provides a feasible scheme for expending geographical entity relations corpus automatic. Experimental results on self- built corpus by LSTM (Long Short Term Memory) network shows that the accuracy of geographical relation extracting from web texts is 73.2%, and the accuracy of relative corpora is 75.2%, which proofs that the corpus of geographical entity relations is available. At the same time, this method takes into account the semantic relationship and spatial relationship between geographical entities, and it can be used for open relation extraction task. Besides, the relation types are not limited, which can be applied to open relation extraction.
来源 地球信息科学学报 ,2018,20(7):871-879 【核心库】
DOI 10.12082/dqxxkx.2018.180032
关键词 地理实体关系 ; 语料库构建 ; 自动回标 ; 地理信息抽取 ; 标注体系
地址

1. 福州大学, 福建省空间信息工程研究中心, 福州, 350002  

2. 海西政务大数据应用协同创新中心, 海西政务大数据应用协同创新中心, 福州, 350002  

3. 中国科学院地理科学与资源研究所, 资源与环境信息系统国家重点实验室, 北京, 100101  

4. 中国科学院文献情报中心, 北京, 100190

语种 中文
文献类型 研究性论文
ISSN 1560-8999
学科 测绘学;自动化技术、计算机技术
基金 国家自然科学基金重点项目 ;  数字福建建设项目 ;  福建省科技创新平台项目
文献收藏号 CSCD:6282195

参考文献 共 22 共2页

1.  陆锋. 论地理知识图谱. 地球信息科学学报,2017,19(6):723-734 被引 47    
2.  余丽. 网络文本蕴涵地理信息抽取:研究进展与展望. 地球信息科学学报,2015,17(2):127-134 被引 20    
3.  余丽. 稀疏地理实体关系的关键词提取方法. 地球信息科学学报,2016,18(11):1465-1475 被引 7    
4.  张雪英. 中文文本的地理空间关系标注. 测绘学报,2012,41(3):468-474 被引 14    
5.  姜维. 基于多知识源的中文词法分析系统. 计算机学报,2007,30(1):137-145 被引 18    
6.  李丽双. CRF与规则相结合的中文地名识别. 大连理工大学学报,2012(2):285-289 被引 10    
7.  周炫余. 基于层次过滤模型的中文指代消解. 吉林大学学报(工学版),2016,46(4):1209-1215 被引 6    
8.  张春菊. 中文文本的事件时空信息标注. 中文信息学报,2016,30(3):213-222 被引 9    
9.  张雪英. 中文文本的地理命名实体标注. 测绘学报,2012,41(1):115-120 被引 19    
10.  Wu F. Autonomously semantifying Wikipedia. Sixteenth ACM conference on conference on information and knowledge management,2007:41-50 被引 1    
11.  申琪君. 中文文本空间关系标注方法研究,2010 被引 1    
12.  Nothman J. Learning multilingual named entity recognition from Wikipedia. Artificial Intelligence,2013,194:151-175 被引 8    
13.  Richman A E. Mining Wiki resources for multilingual named entity recognition. ACL 2008, Proceedings of the, Meeting of the Association for Computational Linguistics,2008:1-9 被引 1    
14.  曾道建. 面向非结构化文本的开放式实体属性抽取. 江西师范大学学报(自然版),2013,37(3):279-283 被引 2    
15.  王汀. 一种面向中文网络百科非结构化信息的知识获取方法. 图书情报工作,2016(13):126-133 被引 1    
16.  王昊. 面向网络的中文实体关系抽取的研究,2015 被引 2    
17.  贾真. 面向中文网络百科的属性和属性值抽取. 北京大学学报(自然科学版),2014,50(1):41-47 被引 7    
18.  杨宇飞. 面向中文网络百科的属性关系抽取研究,2014 被引 1    
19.  Blessing A. Fine-Grained geographical relation extraction from Wikipedia. International Conference on Language Resources and Evaluation,2010:2949-2952 被引 1    
20.  杨腾飞. 基于百度百科的地理命名实体识别,2015 被引 1    
引证文献 6

1 王海波 结合实体词与句子语义的地理实体关系抽取 测绘科学技术学报,2018,35(6):633-636
被引 2

2 张雪英 顾及时空特征的地理知识图谱构建方法 中国科学. 信息科学,2020,50(7):1019-1032
被引 34

显示所有6篇文献

论文科学数据集
PlumX Metrics
相关文献

 作者相关
 关键词相关
 参考文献相关

版权所有 ©2008 中国科学院文献情报中心 制作维护:中国科学院文献情报中心
地址:北京中关村北四环西路33号 邮政编码:100190 联系电话:(010)82627496 E-mail:cscd@mail.las.ac.cn 京ICP备05002861号-4 | 京公网安备11010802043238号