维吾尔文网页正文抽取系统的研究与实现
Research and implementation of Uyghur web content extraction system
查看参考文献15篇
文摘
|
从构建大规模维吾尔文语料库的角度出发,归纳总结各类网页正文抽取技术,提出一种基于文本句长特征的网页正文抽取方法。该方法定义一系列过滤和替换规则对网页源码进行预处理,根据文本句长特征来判断文本段是否为网页正文。整个处理过程不依赖DOM树型结构,克服了基于DOM树结构进行正文抽取方法的性能缺陷。实验结果表明,对于维文各类型的网页正文提取,该方法均具有较高的准确度度和较好通用性。 |
其他语种文摘
|
Starting from the idea of building a large-scale Uyghur corpus,summarizing various web content extraction methods,a web content extraction method based on sentence length feature is presented.Firstly,the web code source is preprocessed with a series filtering and replacing rules.And then the text segment is determined whether to be the web content according to the characteristic of text sentence length.In the whole process,web page source code is analyzed directly,instead of depending on DOM tree structure,therefore the performance shortcomes of the content extraction methods are overcomed based on DOM tree structure.Experimental results show that this method has high reliability and good versatility in content extraction for various types of web pages. |
来源
|
计算机工程与设计
,2012,33(2):551-555 【扩展库】
|
关键词
|
维吾尔文
;
网页正文抽取
;
语料库
;
文本句长特征
;
web文本挖掘
|
地址
|
1.
中国科学院新疆理化技术研究所, 新疆, 乌鲁木齐, 830011
2.
新疆维吾尔自治区经济和信息化委员会, 新疆, 乌鲁木齐, 830011
|
语种
|
中文 |
文献类型
|
研究性论文 |
ISSN
|
1000-7024 |
学科
|
自动化技术、计算机技术 |
基金
|
中国科学院知识创新工程西部行动计划项目
|
文献收藏号
|
CSCD:4452726
|
参考文献 共
15
共1页
|
1.
李培峰. 基于Web的大规模语料库构建方法.
计算机工程,2008,34(7):41-46
|
被引
1
次
|
|
|
|
2.
王敬普. 基于包装器模型的文本信息抽取.
计算机应用,2006,26(3):645-658
|
被引
1
次
|
|
|
|
3.
梅雪. 一种全自动生成网页信息抽取Wrapper的方法.
中文信息学报,2008,22(1):22-29
|
被引
12
次
|
|
|
|
4.
李宏伟. 一种高效Web数据抽取包装器的设计与实现.
计算机技术与发展,2009,19(2):123-126
|
被引
1
次
|
|
|
|
5.
张成洪. Web内容抽取及其数据管理方法.
复旦学报(自然科学版),2001,40(2):177-183
|
被引
2
次
|
|
|
|
6.
王磊. 基于扩展DOM树的Web页面信息抽取.
计算机应用与软件,2007,24(6):137-139
|
被引
5
次
|
|
|
|
7.
杨敬伟. 基于DOM的Web信息抽取规则的构造与实现.
河北大学学报(自然科学版),2007,27(2):209-212
|
被引
3
次
|
|
|
|
8.
刘文杰. 一种基于网页DOM树的信息采集系统.
武汉理工大学学报,2010,32(16):119-122
|
被引
1
次
|
|
|
|
9.
许文. 一种通用HTML网页主题信息提取方法.
现代图书情报技术,2007,23(1):40-43
|
被引
2
次
|
|
|
|
10.
周佳颖. 基于统计与正文特征的中文网页正文抽取研究.
中文信息学报,2009,23(5):80-85
|
被引
7
次
|
|
|
|
11.
王利. 基于内容相似度的网页正文提取.
计算机工程,2010,36(6):102-104
|
被引
9
次
|
|
|
|
12.
张霞亮. 基于逻辑行和最大接纳距离的网页正文抽取.
计算机工程与应用,2009,45(25):125-128
|
被引
3
次
|
|
|
|
13.
张裕钦. 基于规则模型的网页主题文本提取方法.
计算机工程与设计,2009,30(20):4665-4667
|
被引
2
次
|
|
|
|
14.
Steven Bird.
Natural language processing with python,2009
|
被引
2
次
|
|
|
|
15.
蒲宇达.
基于web的网页链接与正文抽取技术研究,2006
|
被引
3
次
|
|
|
|
|