学习&研究的博客分享 http://blog.sciencenet.cn/u/FangliXie 路漫漫其修远兮,吾将上下左右东西南北中所到之处无不披靡而求索。


    • 信息科学->自动化->认知科学及智能信息处理

    扫一扫,分享此博客主页
博主留言
你一种思想,我一种思想,我们一交流就有两种思想.欢迎学术交流.

    现在还没有记录

文献阅读笔记(25)-结合网页结构与文本特征的正文提取 2014-07-29
结合网页结构与文本特征的正文提取方法 摘要 通过正则表达式去除网页中的无关元素,完成对网页的初次过滤。根据网页的结构特征对网页进行线性分块,依 ...
(2710)次阅读|(0)个评论
文献阅读笔记(24)-基于URL-DOM的网页去噪方法 2014-07-25
基于 URL-DOM 的网页去噪方法 URL 相似性定义 在一个 URL 中,每两个 “/” 间的内容称为一小段 URL 。如果满足以下条件: 1 )第一小 ...
(3237)次阅读|(0)个评论
文献阅读笔记(23)-基于网页框架和规则的去噪方法 2014-07-24
基于网页框架和规则的去噪方法 摘要: 提出基于网页框架和规则的去噪方法。根据 TABLE 标签将网页分成若干部分,对各个 TABLE 的长宽比属性进行比较 ...
(2689)次阅读|(0)个评论
文献阅读笔记(22)-基于主题相关性判定的信息提取方法 2014-07-23
基于主题相关性判定的信息提取方法 摘要: 采用 DOM 规范将 HTML 表示成树结构,本文提出 结点主题相关性的判定方法 ,依此方法判定出要抽取的 ...
(3003)次阅读|(0)个评论
文献阅读笔记(21)-条件随机场用于信息抽取 2014-07-21
条件随机场用于信息抽取 随机场 (RF) 在 概率论 中, 由 样本空间 Ω = {0, 1, ..., G − 1} n 取样构成的 随机变量 ...
(3755)次阅读|(0)个评论
文献阅读笔记(20)-基于同层网页相似性的去噪方法 2014-07-20
基于同层网页相似性的去噪方法 同层网页是指在网站的导航结构中同属于一个栏目下的网页。由于现在的网页设计多采用自动生成程序(如 PHP )或模板,从而 ...
(3275)次阅读|(0)个评论
文献阅读笔记(19)-基于Crunch的网页内容提取的应用 2014-07-18
基于 Crunch 的网页内容提取的应用 Crunch 是哥伦比亚大学 Suhit Gupta 牵头开发出来的一个页面代理 (web proxy) ,与浏览器配合使用,对 HTML 页 ...
(2755)次阅读|(0)个评论
文献阅读笔记(18)-网页信息抽取实验系统设计 2014-07-17
网页信息抽取实验系统设计 本文主要概述硕士论文 的实验系统设计。本系统实现对中文网页的主题信息抽取,系统主要分为以下几个功能模块: DOM 树 ...
(3689)次阅读|(0)个评论

查看更多

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-4-20 04:39

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部