博文

文献阅读笔记（18）-网页信息抽取实验系统设计

已有 3695 次阅读 2014-7-17 21:36 |个人分类:科研笔记|系统分类:科研笔记| 实验系统设计, 网页信息抽取

网页信息抽取实验系统设计

本文主要概述硕士论文[1]的实验系统设计。本系统实现对中文网页的主题信息抽取，系统主要分为以下几个功能模块：DOM树构建模块、划分内容块模块、特征提取模块、相似度计算模块、聚类模块和主题信息识别模块。模块结构如图所示：

1. DOM 树构建模块 首先对网页进行标签规范化，使用CyberNeko HTMLParser。在将 HTML 语法进行规范化以后，网页被解析成一棵 DOM 树，以便于标签的遍历以及 VIPS 算法进行网页内容块的划分。该模块的输入为一个原始网页，输出为一棵 DOM 树。

2.划分内容块模块该模块对输入的 DOM 树进行解析，利用 VIPS 算法，根据网页视觉特征对网页进行语义分块，在判断是否达到划分粒度要求时，需要一个阈值来控制，通过大量的研究和反复的实验验证，在 pDoC为 6 时分块效果最佳，因此将 pDoC设置为 6。

3.特征提取模块对于每一个数据块，本文提取 12 个特征来表示，特征如下表所示：

本系统利用正则表达式来抽取出HTML源代码中的文本，因为特征提取的需要，我们最终的特征项为一个个独立的词，因此需要将各个数据块文本进行分词处理，本文采用了中科院的分词软件（ICTCLAS）进行中文分词。每一个网页被表示为一个n维向量(w1,w2,w3,…,wn)，w代表该特征词的权值。使用TF-IDF函数来计算特征词的权重，公式如下：

其中tfi表示该特征词在给定网页中出现的次数；ni表示出现该特征词的网页数量；N表示训练集中所含网页的总数。该模块的输入为网页数据块，输出为各个数据块的量化特征向量和文本特征向量。

4.相似度计算模块任意两个数据块，首先根据余弦公式计算它们的量化特征向量相似度，然后计算文本特征相似度。假设 Bx和 By是两个可视数据块，Vx和 Vy是它们的可量化特征向量，那么 Bx和By之间的相似度Simxy计算方法如下：

其中，sim1xy，sim2xy分别是数据块 Bx和 By之间的可量化特征相似度和文本特征相似度，w1 是可量化特征的权重，w2 是文本特征的权重。

5.聚类模块本模块包括两个步骤：第一个步骤是相似数据块聚类，第二步是合并相似聚类。下图是聚类模块流程图：

参考文献

[1] 董娟.基于页面结构分析的网页信息抽取方法研究_董娟[J].中国石油大学, 2010, 硕士论文

转载本文请联系原作者获取授权，同时请注明本文来自谢方立科学网博客。
链接地址：https://wap.sciencenet.cn/blog-719488-812551.html

上一篇：文献阅读笔记（17）-几个Extractor算法
下一篇：文献阅读笔记（19）-基于Crunch的网页内容提取的应用

收藏 IP: 111.203.22.*| 热度|

当前推荐数：2 推荐人：刘桂锋 Vetaren11

该博文允许注册用户评论请点击登录评论 (0 个评论)

数据加载中...

返回顶部

谢方立

扫一扫，分享此博文

学习&研究的博客分享 http://blog.sciencenet.cn/u/FangliXie 路漫漫其修远兮，吾将上下左右东西南北中所到之处无不披靡而求索。

博文

文献阅读笔记（18）-网页信息抽取实验系统设计

当前推荐数：2 推荐人：刘桂锋 Vetaren11

该博文允许注册用户评论请点击登录评论 (0 个评论)

谢方立

全部作者的其他最新博文

全部精选博文导读

相关博文

学习&研究的博客分享 http://blog.sciencenet.cn/u/FangliXie 路漫漫其修远兮，吾将上下左右东西南北中所到之处无不披靡而求索。

博文

文献阅读笔记（18）-网页信息抽取实验系统设计

当前推荐数：2 推荐人： 刘桂锋 Vetaren11

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

谢方立

全部作者的其他最新博文

全部精选博文导读

相关博文

当前推荐数：2 推荐人：刘桂锋 Vetaren11

该博文允许注册用户评论请点击登录评论 (0 个评论)