python爬虫糗事百科入门求助

当前位置:首页>Python>python爬虫糗事百科入门求助

python爬虫糗事百科入门求助

时间:2015-07-05 19:10来源:网络整理 作者:KKWL 点击:
按照博文写了个爬虫但是一直运行不起来,劳烦大牛看看 源码: importurllib importurllib2 importre page=1 url='http://www.qiushibaike.com/hot/page/'+str(page) #有些网站没有user_agent会报错 user_agent='Mozilla

按照 博文写了个爬虫但是一直运行不起来,劳烦大牛看看
源码:
import urllib
import urllib2
import re
page = 1
url = 'http://www.qiushibaike.com/hot/page/' + str(page)
#有些网站没有user_agent会报错
user_agent = 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/31.0.1650.63 Safari/537.36'
headers = {'User-Agent':user_agent}
request = urllib2.Request(url,headers = headers)
response = urllib2.urlopen(request)

content = response.read().decode('utf-8')
pattern = re.compile('<div.*?class="author".*?>.*?<a.*?>.*?<img.*?>"(.*?)"</a><div.*?class="content".*?>"(.*?)".*?</div>',re.S)
items = re.findall(pattern,content)
for item in items:
    print item[0]


糗事百科网站的HTML截图,请各位看下是不是正则表达式的问题

分享到:

------分隔线----------------------------