学习&研究的博客分享 http://blog.sciencenet.cn/u/FangliXie 路漫漫其修远兮,吾将上下左右东西南北中所到之处无不披靡而求索。

博文

文献阅读笔记(23)-基于网页框架和规则的去噪方法

已有 2656 次阅读 2014-7-24 08:50 |个人分类:科研笔记|系统分类:科研笔记| table, 启发式规则

基于网页框架和规则的去噪方法

摘要:提出基于网页框架和规则的去噪方法。根据TABLE标签将网页分成若干部分,对各个TABLE的长宽比属性进行比较,去掉长宽比很大的部分,并对其余的TABLE中的内容进行分析,根据内部是否存在和段落文字有关的标签pbr等来区分主题内容和噪音内容。

噪声分类

(1)导航类:为了维持网页间的链接关系,方便浏览者对网站进行浏览而设置的链接。

(2)修饰类:为了美化页面而采用的背景、修饰图片等。如站点标志图片、广告条。

(3)交互类:为了收集用户提交信息或提供站内搜索服务的表单等。如在线问卷调查表。

(4)其他类:网页中声明的版权信息、创建时间、作者等描述性信息。

参考文献(文献笔记荆涛,左万利. 基于可视布局信息的网页噪音去除算法_荆涛[J]. 华南理工大学学报(自然科学版), 2004, 卷缺失(0): 90-93+104.

启发式规则

(1)标签<table></table>之间如果有标签pbr,可以看为是正文内容;

(2)若标签<table> width height 属性为其占页面的百分比,则需要根据这个百分比的值来确定其是否为主题内容。若 width height 属性的百分比数值较大,则认为有可能是主题内容;

(3)对于多层嵌套的标签<table>,认为只在其中某一层table 中存在主题内容;

(4)对于没有标签<table>的网页,即不是由表格分割的网页,如果存在段落文字,则认为是主题内容。

算法思想

对于有标签<table>的网页,认为重要的信息都放在网页的中间区域,而且该区域长度和宽度都比较大。而网页边缘区域的重要性相对于中间区域都很弱,而且该区域比较狭长;对于没有标签<table>的网页,只是根据其是否存在段落文字来判断是否为主题内容,并没有考虑更多。

实验分析

1)数据集. 选用CWT200G(Chinese Web testcollection with 200 GB Web pages)中的 125 个站点的 132 559 个网页进行测试。

2)衡量指标. 检查结果用优、良、中、差”4 个标准进行判断。其中代表网页主题内容正确提取,且噪音基本去除;代表网页主题内容正确提取,噪音存在一部分;代表网页主题内容基本能正确提取,噪音存在较多;代表网页噪音基本没有消除或者主题内容没有正确提取。

 

参考文献

[1] 时达明,林鸿飞,杨志豪.基于网页框架和规则的网页噪音去除方法[J]. 计算机工程,2007, 卷缺失(19):276-278.



https://wap.sciencenet.cn/blog-719488-814209.html

上一篇:文献阅读笔记(22)-基于主题相关性判定的信息提取方法
下一篇:文献阅读笔记(24)-基于URL-DOM的网页去噪方法
收藏 IP: 111.203.22.*| 热度|

1 Vetaren11

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...
扫一扫,分享此博文

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-3-28 19:11

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部