帮助 关于我们

返回检索结果

面向网页文本的地理要素变化检测
Change Detection of Geographic Features Based on Web Pages

查看参考文献37篇

王曙 1   吉雷静 2   张雪英 2 *   赵仁亮 3   陈晓丹 2   余浩 4  
文摘 地理要素变化检测已成为国家地理信息“十二五”规划和全国地理国情普查的重要组成部分。网页文本中蕴含海量的地理要素信息,尤其是新闻、政府、社交平台等网站的网页文本更新频繁,可为地理要素变化检测提供现势性的数据源。本文针对网页文本中地理要素变化的语言描述特点,构建了表达地理要素变化的语义知识库,设计了搜索引擎和通用主题相结合的网页爬虫,实现了相关网页文本的高效获取;采用规则模型和条件随机场模型,分别进行网页文本中地理要素变化信息抽取,包括地理要素名称、位置(地名)、时间和属性等。实验结果显示,本文设计的网页爬虫具有较高的相关网页文本获取能力,地理要素变化信息抽取的准确率能够达到70%以上,但是,语义知识库的完备程度对于信息抽取性能具有较大影响。研究成果表明,以网页文本为数据源的地理要素变化信息获取方法,能提供一种快速检测地理要素变化的新途径,与实地调绘和遥感影像检测等方法结合应用具有较好的优势互补性,可作为有力的辅助手段解决地理要素的持续更新和实时更新问题。
其他语种文摘 Geographic features change detection has became a vital component of the national geographical information 12th Five-Year-Plan and the national geographic general survey. In web pages, billions of geographic feature changes were contained, especially in government official websites, news homepages, social portals and etc. The web pages of these websites update frequently, which could provide the latest data for geographic infor-mation change detection. Considering the complex characteristics of the web geographic information description, this paper did some valuable achievements. First of all, the geographic information knowledge base was established by summarizing the geographic information words and phrases, which could give the great supports to geographic information semantics change detection. Then, the web geographic information was obtained using two kinds of web crawler technologies. Combining the Google Custom Search crawler and general topic crawler, the web geographic information obtainment could be more complete in both scope and depth. Thirdly, the geographic information was parsed and extracted from the web text, which showed users the related features, place names, times and attributes. Last but not least, the prototype system was finally developed and the results were analyzed. The experiments indicated that the accuracy of related web pages obtainment and features change detection were over 74% and 70% respectively. In addition, the results of geographic information change detection highly relied on the integrity of knowledge base, which need to be completed further. Moreover, the uncertainty and fuzziness of web geographic information also limited the change detection results. Therefore, the web page based geographic information change detection could be a supplementary method of geographic information change detection. Combining the traditional surveying detection and remote-sensing imagery detection methods, it could solve the problems of continuous updating and timely updating of geographic information efficiently.
来源 地球信息科学学报 ,2013,15(5):625-634 【核心库】
关键词 网页文本 ; 地理要素变化 ; 信息抽取 ; 网页爬虫 ; 文本解析
地址

1. 英国利兹大学地理学院, 利兹, LS2 9JT  

2. 南京师范大学, 虚拟地理环境教育部重点实验室, 南京, 210046  

3. 中国国家基础地理信息中心, 北京, 100830  

4. 南京邮电大学计算机学院, 南京, 210003

语种 中文
文献类型 研究性论文
ISSN 1560-8999
学科 地球物理学
基金 国家测绘科技项目“网络地理信息变化检测技术研究” ;  国家自然科学基金项目 ;  国家863计划
文献收藏号 CSCD:4945925

参考文献 共 37 共2页

1.  钱育华. 数字城镇的数据更新. 地球信息科学,2002,4(3):64-67 CSCD被引 2    
2.  Chen J. Dynatmic updating system for national fundamental GIS: Concepts and research agenda. Geomatics World,2007,5(5):4-9 CSCD被引 20    
3.  Heipke C. Updating geospatial databases from images. Advances in Photogrammetry, Remote Sensing and Spatial Information Sciences:2008 ISPRS Congress Book,2008:355-362 CSCD被引 1    
4.  Badard T. Towards a generic updating tool for geographic databases. Proceedings of GIS/LIS'98 Annual Exposition and Conference,1998:352-363 CSCD被引 3    
5.  陈军. 国家1:50000数据库更新工程总体设计研究与技术创新. 测绘学报,2010,39(1):7-10 CSCD被引 46    
6.  王迪伟. 基于PDA的1∶10000比例尺地形图野外调绘. 测绘通报,2010(7):59-61 CSCD被引 2    
7.  李冰. 大比例尺地理信息数据库建设刍论. 科技创新与生产力,2010,195(7):83-85 CSCD被引 1    
8.  王帅. 初探首次全国地理国情普查. 3S News Weekly,2013(5):30-33 CSCD被引 1    
9.  Palkowsky B. A new approach to information discovery--Geography really does matter. Proceedings of the SPE Annual Technical Conference and Exhibition,2005 CSCD被引 4    
10.  Ai T. Constraints of progressive transmission of spatial data on the web. Geo-spatial Information Science,2010,13(2):85-92 CSCD被引 1    
11.  容伟杰. 网络信息存在的几大问题. 图书馆学研究,2003(2):48-49 CSCD被引 1    
12.  孙瑞英. 网络数据内容分析研究. 图书馆学研究,2005(5):35-39 CSCD被引 1    
13.  Wu M L. CTEMP: A Chinese temporal parser for extracting and normalizing temporal information. Natural Language Processing-IJCNLP 2005, Second International Joint Conference,2005:694-706 CSCD被引 1    
14.  赵国荣. 中文新闻语料中的时间短语识别方法研究,2006 CSCD被引 4    
15.  逯万辉. 基于条件随机场模型的复杂时间信息抽取研究. 现代图书情报技术,2011(10):29-33 CSCD被引 4    
16.  宋洋. 基于条件随机场的事件起止时间表达式的识别. 中国科技论文在线,2012(1):1-8 CSCD被引 1    
17.  俞鸿魁. 基于层叠隐马尔可夫模型的中文命名实体识别. 通信学报,2006,27(2):87-94 CSCD被引 68    
18.  钱晶. 基于最大熵的汉语人名地名识别方法研究. 小型微型计算机系统,2006,27(9):1761-1764 CSCD被引 15    
19.  张雪英. 基于规则的中文地址要素解析方法. 地球信息科学学报,2010,12(2):9-16 CSCD被引 39    
20.  李丽双. CRF与规则相结合的中文地名识别. 大连理工大学学报,2012,52(2):285-289 CSCD被引 10    
引证文献 7

1 沈平 一种主动发现网络地理信息服务的主题爬虫 地球信息科学学报,2015,17(2):185-190
CSCD被引 1

2 仇培元 互联网文本蕴含道路交通信息抽取的模式匹配方法 地球信息科学学报,2015,17(4):416-422
CSCD被引 7

显示所有7篇文献

论文科学数据集
PlumX Metrics
相关文献

 作者相关
 关键词相关
 参考文献相关

版权所有 ©2008 中国科学院文献情报中心 制作维护:中国科学院文献情报中心
地址:北京中关村北四环西路33号 邮政编码:100190 联系电话:(010)82627496 E-mail:cscd@mail.las.ac.cn 京ICP备05002861号-4 | 京公网安备11010802043238号