博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
python网络爬虫--简单爬取糗事百科
阅读量:4985 次
发布时间:2019-06-12

本文共 1892 字,大约阅读时间需要 6 分钟。

  刚开始学习python爬虫,写了一个简单python程序爬取糗事百科。

  具体步骤是这样的:首先查看糗事百科的url:http://www.qiushibaike.com/8hr/page/2/?s=4959489,可以发现page后的数据代表第几页。

  然后装配request,注意要设置user_agent

1 user_agent = 'Mozilla/4.0 (compatible; MSIE 5.5; Windows NT)'2 headers = {
'User-Agent': user_agent}3 request=urllib2.Request(url,headers=headers)4 response=urllib2.urlopen(request)

  然后获取返回的数据

content=response.read().decode('utf-8')

  然后是关键,使用正则匹配出所有的具体内容。这里可以使用浏览器的检查功能查看页面结构,写出相对应的正则式,比如我们对下面的<div class="content">...</div>进行匹配的正则式如下

pattern=re.compile('
....
(.*?)...
',re.S)
items=re.findall(pattern,content)

  (.*?)   :表示组,该部分为一个整体,将该部分匹配到字符串作为返回值返回,findall表示找到所有匹配的字符串,以序列的形式返回

  参数re.S表示"."点号匹配所有字符包括换行

 

 

下面是完整代码

1 import urllib 2 import urllib2 3 import re 4 import time 5  6 page=2 7 f=open("D:\qiushi.txt","r+") 8 user_agent = 'Mozilla/4.0 (compatible; MSIE 5.5; Windows NT)' 9 headers = {
'User-Agent': user_agent}10 while page<100:11 url="http://www.qiushibaike.com/8hr/page/"+str(page)+"/?s=4959460"12 13 print url14 try:15 request=urllib2.Request(url,headers=headers)16 response=urllib2.urlopen(request)17 content=response.read().decode('utf-8')18 # print content19 pattern=re.compile('
....
(.*?)...
',re.S)20 items=re.findall(pattern,content)21 f.write((url+"\n").encode('utf-8'))22 for item in items:23 print "------"24 item=item+"\n"25 print item26 f.write("------\n".encode('utf-8'))27 f.write(item.replace('
','\n').encode('utf-8'))28 except urllib2.URLError,e:29 if hasattr(e,"code"):30 print e.code31 if hasattr(e,"reason"):32 print e.reason33 finally:34 page+=135 time.sleep(1)

这里我是将找到的输出到d盘下的qiushi.txt文件

  

 

转载于:https://www.cnblogs.com/wuyoucao/p/6434972.html

你可能感兴趣的文章
Spring Cloud Eureka 使用 IP 地址进行服务注册
查看>>
Python 包的制作(__init__.py)
查看>>
java内存模型优化建议
查看>>
三十、模块补充
查看>>
流程审批设计
查看>>
别装了,你根本就不想变成更好的人
查看>>
数据库 join
查看>>
AES加密工具类[亲测可用]
查看>>
方法区
查看>>
Django-----ORM
查看>>
ARCGIS部分刷新
查看>>
发 零 食
查看>>
poj3613:Cow Relays(倍增优化+矩阵乘法floyd+快速幂)
查看>>
洛谷P1886 滑动窗口
查看>>
Shell编程(二)Bash中调用Python
查看>>
主动与被动监控 拓扑图组合图 自定义监控
查看>>
SQL总结(一)基本查询
查看>>
PDF分割--可脱离python环境执行,可传参数,可弹窗的PC端小工具
查看>>
cas-client-core单点登录排除不需要拦截的URL
查看>>
OCR技术浅探 : 文字定位和文本切割(2)
查看>>