帮助 关于我们

返回检索结果

面向公共安全事件的网络文本大数据结构化研究
Public Security Event Themed Web Text Structuring

查看参考文献61篇

裴韬 1,2,3   郭思慧 1,2   袁烨城 1 *   张雪英 4,3   袁文 1   高昂 5   赵志远 6   薛存金 7  
文摘 网络文本中所包含的相关信息目前已成为公共安全事件紧急救援与影响评估的重要信息源。现有的方法虽然可定向地提取文本信息中事件的各类要素信息,但由于缺乏面向事件的整体建模与解析框架,难以从网络文本中获取系统的事件要素的结构化信息,即所提取的事件要素信息要么不够完整,要么与目标事件不匹配,由此产生的遗漏与谬误难以支撑针对公共安全事件信息的系统分析。为解决该问题,本文提出了面向公共安全事件的网络文本大数据结构化理论框架,首先,建立了公共安全事件的语义框架,并以地震事件为例构建了相应的结构化表结构;其次,应用训练语料的关联标注解决了事件要素与事件无法匹配的难点;最后,通过使用可融合关联信息的文本解析算法,系统提取了事件类型、事件名称、事件时间、事件位置及其他属性,基本实现了网络文本中不同事件信息的结构化。本文以云南邵通鲁甸地震为例,展示了地震事件的网络文本信息的结构化过程与结果,为分析地震所受的关注程度以及救援状况提供了重要参考。在上述研究的基础上,开发了面向公共安全事件的网络文本信息挖掘系统,展示了地震事件文本的结构化解析以及由此实施的事件关注度分析。
其他语种文摘 The information of public security event contained in text can be the data source of the evaluation and the relief if it can be structured into a relational database.Although previous research can extract the information of events into different attributes,the determination on the attribution of the attribute information to specific event remains unsolved.To solve the problem,this paper proposes a theoretical frame of public security event themed web text structuring,which is composed of three parts.First,an event semantic model is used to construct the seismic event semantic framework which defines abstract elements of event and their semantic relationships.Taking seismicity as an example,spatial element,time element,attribute element,source element are defined as basic elements.Spatial element includes earthquake latitude,longitude,depth and location.Attribute element is further subdivided into four sub-elements:Cause,result,behavior and influence element.Next,an annotation system is applied to typical event materials to label semantic elements,e.g.the place name where an earthquake took place,that is,instantiation of the abstract elements.The key to this step is labeling the relations between elements and specific event.Finally,the event text is structured into event type,event name,event time,event location and other attributes by using the text information extraction algorithm.The algorithm used the labeled materials in the last step as training data to optimize parameters,which can incorporate linked information.The extracted event text (e.g.words,phrases) finally is normalized to structured information for further analysis.An event information mining platform following the whole frame is developed,which includes the modules of webpage searching,text cleaning,event information extraction,visualization and analyzing.The platform processed the whole Chinese webpages of 2014 and found 85 506 seismicity reports.Taking Yunnanludian earthquake as an example,we display the structuring process and result of related web text,which can be the important reference for the relief of the disaster and the analysis of public concern.With the platform,we can demonstrate the seismic text structuring result and its social concern across China,which can be a new tool of event information mining and analyzing.
来源 地球信息科学学报 ,2019,21(1):2-13 【核心库】
DOI 10.12082/dqxxkx.2019.180680
关键词 语义框架 ; 文本解析 ; 事件关注度 ; 地震事件 ; 空间搜索引擎
地址

1. 中国科学院地理科学与资源研究所, 资源与环境信息系统国家重点实验室, 北京, 100101  

2. 中国科学院大学, 北京, 100049  

3. 江苏省地理信息资源开发与利用协同创新中心, 江苏省地理信息资源开发与利用协同创新中心, 南京, 210023  

4. 南京师范大学, 虚拟地理环境教育部重点实验室, 南京, 210023  

5. 中国标准化研究院, 北京, 100088  

6. 武汉大学, 测绘遥感信息工程国家重点实验室, 武汉, 430079  

7. 中国科学院遥感与数字地球研究所, 北京, 100094

语种 中文
文献类型 研究性论文
ISSN 1560-8999
学科 自动化技术、计算机技术
基金 国家自然科学基金项目
文献收藏号 CSCD:6415535

参考文献 共 61 共4页

1.  Sakaki T. Earthquake shakes Twitter users:Real-time event detection by social sensors. International Conference on World Wide Web,2010:851-860 被引 4    
2.  仇培元. 蕴含地理事件微博客消息的自动识别方法. 地球信息科学学报,2016,18(7):886-893 被引 11    
3.  袁烨城. 基于语义知识的空间关系识别研究. 地球信息科学学报,2014,16(5):681-690 被引 3    
4.  余丽. 网络文本蕴涵地理信息抽取:研究进展与展望. 地球信息科学学报,2015,17(2):127-134 被引 20    
5.  Rafea A. Topic extraction in social media. International conference on collaboration technologies and systems,2013:94-98 被引 1    
6.  Petkos G. A soft frequent pattern mining approach for textual topic detection. International conference on web intelligence, Mining and Semantics,2014:1-10 被引 1    
7.  谭红叶. 中国地名的自动识别方法研究. 全国计算机语言联合学术会议,1999 被引 1    
8.  肖计划. 地名识别与匹配的概率统计方法. 测绘科学技术学报,2014,31(4):408-412 被引 3    
9.  丁效. 句子级中文事件抽取关键技术研究,2011 被引 2    
10.  吴家皋. HMM模型和句法分析相结合的事件属性信息抽取. 南京师大学报(自然科学版),2014,37(1):30-34 被引 2    
11.  马林兵. 空间信息自然语言查询接口的研究与应用. 武汉大学学报·信息科学版,2003,28(3):301-305 被引 18    
12.  乐小虬. 基于空间语义角色的自然语言空间概念提取. 武汉大学学报(信息科学版),2005,30(12):1011-3011 被引 2    
13.  乐小虬. 非受限文本中深层空间语义的识别方法. 计算机工程,2006,32(4):36-38 被引 3    
14.  蒋文明. 面向中文文本的空间方位关系抽取方法研究,2010 被引 5    
15.  Li R. Using maximum entropy model for Chinese text categorization. Asia-Pacific Web Conference,2004:578-587 被引 1    
16.  李荣陆. 使用最大熵模型进行中文文本分类. 计算机研究与发展,2005,42(1):94-101 被引 33    
17.  肖雪. 基于最大熵模型的中文文本层次分类方法. 计算机与网络,2015(9):36-38 被引 1    
18.  王江伟. 基于最大熵模型的中文命名实体识别,2005 被引 3    
19.  王胜. 基于最大熵马尔可夫模型的地址信息抽取. 计算机工程与应用,2005,41(21):192-194 被引 2    
20.  钱晶. 基于最大熵的汉语人名地名识别方法研究. 小型微型计算机系统,2006,27(9):1761-1765 被引 15    
引证文献 6

1 胡云锋 中国水土流失研究热点区的空间分布制图 生态学报,2019,39(16):5829-5835
被引 5

2 张琛 基于用户情感变化的新冠疫情舆情演变分析 地球信息科学学报,2021,23(2):341-350
被引 7

显示所有6篇文献

论文科学数据集
PlumX Metrics
相关文献

 作者相关
 关键词相关
 参考文献相关

版权所有 ©2008 中国科学院文献情报中心 制作维护:中国科学院文献情报中心
地址:北京中关村北四环西路33号 邮政编码:100190 联系电话:(010)82627496 E-mail:cscd@mail.las.ac.cn 京ICP备05002861号-4 | 京公网安备11010802043238号