mpcer的个人博客分享 http://blog.sciencenet.cn/u/mpcer

博文

爬取HTML的Java库-Jsoup

已有 3969 次阅读 2014-5-4 09:25 |个人分类:IT研究|系统分类:科研笔记

jsoup 是一款Java 的HTML解析器,可直接解析某个URL地址、HTML文本内容。它可通过DOM,CSS以及类似于jQuery的操作方法来取出和操作数据。主要功能:1. 从一个URL,文件或字符串中解析HTML;2. 使用DOM或CSS选择器来查找、取出数据;3. 可操作HTML元素、属性、文本;jsoup是基于MIT协议发布的,可放心使用于商业项目。官网:http://jsoup.org/

 



https://wap.sciencenet.cn/blog-1313601-791120.html

上一篇:CNKI参考文献进展
下一篇:写了篇Citespace基础教程的文章
收藏 IP: 61.140.21.*| 热度|

0

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-4-17 03:57

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部