帮助 关于我们

返回检索结果

维吾尔文网页正文抽取系统的研究与实现
Research and implementation of Uyghur web content extraction system

查看参考文献15篇

蔡李 1   单艳 1   薛化建 1   苏国平 2  
文摘 从构建大规模维吾尔文语料库的角度出发,归纳总结各类网页正文抽取技术,提出一种基于文本句长特征的网页正文抽取方法。该方法定义一系列过滤和替换规则对网页源码进行预处理,根据文本句长特征来判断文本段是否为网页正文。整个处理过程不依赖DOM树型结构,克服了基于DOM树结构进行正文抽取方法的性能缺陷。实验结果表明,对于维文各类型的网页正文提取,该方法均具有较高的准确度度和较好通用性。
其他语种文摘 Starting from the idea of building a large-scale Uyghur corpus,summarizing various web content extraction methods,a web content extraction method based on sentence length feature is presented.Firstly,the web code source is preprocessed with a series filtering and replacing rules.And then the text segment is determined whether to be the web content according to the characteristic of text sentence length.In the whole process,web page source code is analyzed directly,instead of depending on DOM tree structure,therefore the performance shortcomes of the content extraction methods are overcomed based on DOM tree structure.Experimental results show that this method has high reliability and good versatility in content extraction for various types of web pages.
来源 计算机工程与设计 ,2012,33(2):551-555 【扩展库】
关键词 维吾尔文 ; 网页正文抽取 ; 语料库 ; 文本句长特征 ; web文本挖掘
地址

1. 中国科学院新疆理化技术研究所, 新疆, 乌鲁木齐, 830011  

2. 新疆维吾尔自治区经济和信息化委员会, 新疆, 乌鲁木齐, 830011

语种 中文
文献类型 研究性论文
ISSN 1000-7024
学科 自动化技术、计算机技术
基金 中国科学院知识创新工程西部行动计划项目
文献收藏号 CSCD:4452726

参考文献 共 15 共1页

1.  李培峰. 基于Web的大规模语料库构建方法. 计算机工程,2008,34(7):41-46 被引 1    
2.  王敬普. 基于包装器模型的文本信息抽取. 计算机应用,2006,26(3):645-658 被引 1    
3.  梅雪. 一种全自动生成网页信息抽取Wrapper的方法. 中文信息学报,2008,22(1):22-29 被引 12    
4.  李宏伟. 一种高效Web数据抽取包装器的设计与实现. 计算机技术与发展,2009,19(2):123-126 被引 1    
5.  张成洪. Web内容抽取及其数据管理方法. 复旦学报(自然科学版),2001,40(2):177-183 被引 2    
6.  王磊. 基于扩展DOM树的Web页面信息抽取. 计算机应用与软件,2007,24(6):137-139 被引 5    
7.  杨敬伟. 基于DOM的Web信息抽取规则的构造与实现. 河北大学学报(自然科学版),2007,27(2):209-212 被引 3    
8.  刘文杰. 一种基于网页DOM树的信息采集系统. 武汉理工大学学报,2010,32(16):119-122 被引 1    
9.  许文. 一种通用HTML网页主题信息提取方法. 现代图书情报技术,2007,23(1):40-43 被引 2    
10.  周佳颖. 基于统计与正文特征的中文网页正文抽取研究. 中文信息学报,2009,23(5):80-85 被引 7    
11.  王利. 基于内容相似度的网页正文提取. 计算机工程,2010,36(6):102-104 被引 9    
12.  张霞亮. 基于逻辑行和最大接纳距离的网页正文抽取. 计算机工程与应用,2009,45(25):125-128 被引 3    
13.  张裕钦. 基于规则模型的网页主题文本提取方法. 计算机工程与设计,2009,30(20):4665-4667 被引 2    
14.  Steven Bird. Natural language processing with python,2009 被引 2    
15.  蒲宇达. 基于web的网页链接与正文抽取技术研究,2006 被引 3    
引证文献 2

1 薛朋强 面向维吾尔文的敏感信息过滤方法研究 计算机工程与应用,2018,54(5):236-241,246
被引 1

2 依不拉音·吾斯曼 面向多形式维文的敏感信息过滤算法研究 计算机工程与应用,2020,56(10):127-133
被引 0 次

显示所有2篇文献

论文科学数据集
PlumX Metrics
相关文献

 作者相关
 关键词相关
 参考文献相关

版权所有 ©2008 中国科学院文献情报中心 制作维护:中国科学院文献情报中心
地址:北京中关村北四环西路33号 邮政编码:100190 联系电话:(010)82627496 E-mail:cscd@mail.las.ac.cn 京ICP备05002861号-4 | 京公网安备11010802043238号