科学网

 找回密码
  注册
Python提取文本或网页上的缩写词
吕波 2016-11-13 16:56
import re import urllib from bs4 import BeautifulSoup url = http://journals.plos.org/plosone/article?id=info%3Adoi/10.1371/journal.pone.0162069 response = urllib.urlopen(url) page = response.read() soup = BeautifulSoup(page, lxml) # kill all script and style elements for s ...
个人分类: Python|3303 次阅读|没有评论
Python提取网页中的文本
吕波 2016-11-13 16:01
import re import urllib from bs4 import BeautifulSoup url = http://journals.plos.org/plosone/article?id=info%3Adoi/10.1371/journal.pone.0162069 response = urllib.urlopen(url) page = response.read() soup = BeautifulSoup(page, lxml) # kill all script and style elements fo ...
个人分类: Python|5182 次阅读|没有评论
Python提取句子
吕波 2016-11-10 21:35
将一段话中的句子分离出来不是一件容易的事。因为句子的开头和结尾并不是很规则,而且句子内部会出现句号。这使得通过单一的正则表达式分离句子是不可能的。有时你能成功,但大多数时候你会出错。这里我们用nltk模块来做。 第一部分:使用正则表达式 import re paragraph = Mr. Smith bought cheapsite.com for ...
个人分类: Python|9850 次阅读|没有评论

本页有 7 篇博文因作者的隐私设置或未通过审核而隐藏

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-4-16 23:38

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部