分享

[Python]网络爬虫(三)、(四)

本帖最后由 pig2 于 2014-12-18 21:55 编辑


问题导读
问题1:HTTP状态码通常分为哪几种类型?
问题2:如何实现用特定处理器获取URLs?








[Python]网络爬虫(三):异常的处理和HTTP状态码的分类


先来说一说HTTP的异常处理问题。
当urlopen不能够处理一个response时,产生urlError。
不过通常的Python APIs异常如ValueError,TypeError等也会同时产生。
HTTPError是urlError的子类,通常在特定HTTP URLs中产生。

1.URLError
通常,URLError在没有网络连接(没有路由到特定服务器),或者服务器不存在的情况下产生。
这种情况下,异常同样会带有"reason"属性,它是一个tuple(可以理解为不可变的数组),
包含了一个错误号和一个错误信息。


我们建一个urllib2_test06.py来感受一下异常的处理:

  1. import urllib2
  2. req = urllib2.Request('http://www.baibai.com')
  3. try: urllib2.urlopen(req)
  4. except urllib2.URLError, e:  
  5.     print e.reason
复制代码

按下F5,可以看到打印出来的内容是:
[Errno 11001] getaddrinfo failed

也就是说,错误号是11001,内容是getaddrinfo failed

2.HTTPError
服务器上每一个HTTP 应答对象response包含一个数字"状态码"。
有时状态码指出服务器无法完成请求。默认的处理器会为你处理一部分这种应答。

例如:假如response是一个"重定向",需要客户端从别的地址获取文档,urllib2将为你处理。
其他不能处理的,urlopen会产生一个HTTPError。

典型的错误包含"404"(页面无法找到),"403"(请求禁止),和"401"(带验证请求)。

HTTP状态码表示HTTP协议所返回的响应的状态。

比如客户端向服务器发送请求,如果成功地获得请求的资源,则返回的状态码为200,表示响应成功。
如果请求的资源不存在, 则通常返回404错误。

HTTP状态码通常分为5种类型,分别以1~5五个数字开头,由3位整数组成:
------------------------------------------------------------------------------------------------
200:请求成功      处理方式:获得响应的内容,进行处理
201:请求完成,结果是创建了新资源。新创建资源的URI可在响应的实体中得到    处理方式:爬虫中不会遇到
202:请求被接受,但处理尚未完成    处理方式:阻塞等待
204:服务器端已经实现了请求,但是没有返回新的信 息。如果客户是用户代理,则无须为此更新自身的文档视图。    处理方式:丢弃
300:该状态码不被HTTP/1.0的应用程序直接使用, 只是作为3XX类型回应的默认解释。存在多个可用的被请求资源。    处理方式:若程序中能够处理,则进行进一步处理,如果程序中不能处理,则丢弃
301:请求到的资源都会分配一个永久的URL,这样就可以在将来通过该URL来访问此资源    处理方式:重定向到分配的URL
302:请求到的资源在一个不同的URL处临时保存     处理方式:重定向到临时的URL
304 请求的资源未更新     处理方式:丢弃
400 非法请求     处理方式:丢弃
401 未授权     处理方式:丢弃
403 禁止     处理方式:丢弃
404 没有找到     处理方式:丢弃
5XX 回应代码以“5”开头的状态码表示服务器端发现自己出现错误,不能继续执行请求    处理方式:丢弃


------------------------------------------------------------------------------------------------
HTTPError实例产生后会有一个整型'code'属性,是服务器发送的相关错误号。
Error Codes错误码

因为默认的处理器处理了重定向(300以外号码),并且100-299范围的号码指示成功,所以你只能看到400-599的错误号码。

BaseHTTPServer.BaseHTTPRequestHandler.response是一个很有用的应答号码字典,显示了HTTP协议使用的所有的应答号。
当一个错误号产生后,服务器返回一个HTTP错误号,和一个错误页面。
你可以使用HTTPError实例作为页面返回的应答对象response。
这表示和错误属性一样,它同样包含了read,geturl,和info方法。



我们建一个urllib2_test07.py来感受一下:
  1. import urllib2
  2. req = urllib2.Request('http://bbs.csdn.net/callmewhy')
  3. try:
  4.     urllib2.urlopen(req)
  5. except urllib2.URLError, e:
  6.     print e.code
  7.     #print e.read()
复制代码
按下F5可以看见输出了404的错误码,也就说没有找到这个页面。

3.Wrapping



所以如果你想为HTTPError或URLError做准备,将有两个基本的办法。推荐使用第二种。



我们建一个urllib2_test08.py来示范一下第一种异常处理的方案:
  1. from urllib2 import Request, urlopen, URLError, HTTPError
  2. req = Request('http://bbs.csdn.net/callmewhy')
  3. try:
  4.     response = urlopen(req)
  5. except HTTPError, e:
  6.     print 'The server couldn\'t fulfill the request.'
  7.     print 'Error code: ', e.code
  8. except URLError, e:
  9.     print 'We failed to reach a server.'
  10.     print 'Reason: ', e.reason
  11. else:
  12.     print 'No exception was raised.'
  13.     # everything is fine
复制代码

和其他语言相似,try之后捕获异常并且将其内容打印出来。

这里要注意的一点,except HTTPError 必须在第一个,否则except URLError将同样接受到HTTPError 。
因为HTTPError是URLError的子类,如果URLError在前面它会捕捉到所有的URLError(包括HTTPError )。


我们建一个urllib2_test09.py来示范一下第二种异常处理的方案:

  1. from urllib2 import Request, urlopen, URLError, HTTPError
  2. req = Request('http://bbs.csdn.net/callmewhy')
  3.   
  4. try:  
  5.   
  6.     response = urlopen(req)  
  7.   
  8. except URLError, e:  
  9.     if hasattr(e, 'code'):  
  10.   
  11.         print 'The server couldn\'t fulfill the request.'  
  12.   
  13.         print 'Error code: ', e.code  
  14.     elif hasattr(e, 'reason'):  
  15.   
  16.         print 'We failed to reach a server.'  
  17.   
  18.         print 'Reason: ', e.reason  
  19.   
  20.   
  21. else:  
  22.     print 'No exception was raised.'  
  23.     # everything is fine  
复制代码


[Python]网络爬虫(四):Opener与Handler的介绍和实例应用


在开始后面的内容之前,先来解释一下urllib2中的两个个方法:info and geturl
urlopen返回的应答对象response(或者HTTPError实例)有两个很有用的方法info()和geturl()

1.geturl():
这个返回获取的真实的URL,这个很有用,因为urlopen(或者opener对象使用的)或许会有重定向。获取的URL或许跟请求URL不同。
以人人中的一个超级链接为例,


我们建一个urllib2_test10.py来比较一下原始URL和重定向的链接:


  1. from urllib2 import Request, urlopen, URLError, HTTPError
  2. old_url = 'http://rrurl.cn/b1UZuP'
  3. req = Request(old_url)
  4. response = urlopen(req)  
  5. print 'Old url :' + old_url
  6. print 'Real url :' + response.geturl()
复制代码

运行之后可以看到真正的链接指向的网址:
1.png

2.info():
这个返回对象的字典对象,该字典描述了获取的页面情况。通常是服务器发送的特定头headers。目前是httplib.HTTPMessage 实例。
经典的headers包含"Content-length","Content-type",和其他内容。


我们建一个urllib2_test11.py来测试一下info的应用:

  1. from urllib2 import Request, urlopen, URLError, HTTPError
  2. old_url = 'http://www.baidu.com'
  3. req = Request(old_url)
  4. response = urlopen(req)  
  5. print 'Info():'
  6. print response.info()
复制代码

运行的结果如下,可以看到页面的相关信息:

2.png



下面来说一说urllib2中的两个重要概念:Openers和Handlers。

1.Openers:
当你获取一个URL你使用一个opener(一个urllib2.OpenerDirector的实例)。
正常情况下,我们使用默认opener:通过urlopen。
但你能够创建个性的openers。

2.Handles:
Openers使用处理器handlers,所有的“繁重”工作由handlers处理。
每个handlers知道如何通过特定协议打开URLs,或者如何处理URL打开时的各个方面。
例如HTTP重定向或者HTTP cookies。

如果你希望用特定处理器获取URLs你会想创建一个openers,例如获取一个能处理cookie的opener,或者获取一个不重定向的opener。

要创建一个 opener,可以实例化一个OpenerDirector,
然后调用.add_handler(some_handler_instance)。
同样,可以使用build_opener,这是一个更加方便的函数,用来创建opener对象,他只需要一次函数调用。
build_opener默认添加几个处理器,但提供快捷的方法来添加或更新默认处理器。
其他的处理器handlers你或许会希望处理代理,验证,和其他常用但有点特殊的情况。

install_opener 用来创建(全局)默认opener。这个表示调用urlopen将使用你安装的opener。
Opener对象有一个open方法。
该方法可以像urlopen函数那样直接用来获取urls:通常不必调用install_opener,除了为了方便。

说完了上面两个内容,下面我们来看一下基本认证的内容,这里会用到上面提及的Opener和Handler。

Basic Authentication 基本验证
为了展示创建和安装一个handler,我们将使用HTTPBasicAuthHandler。
当需要基础验证时,服务器发送一个header(401错误码) 请求验证。这个指定了scheme 和一个‘realm’,看起来像这样:Www-authenticate: SCHEME realm="REALM".

例如
Www-authenticate: Basic realm="cPanel Users"
客户端必须使用新的请求,并在请求头里包含正确的姓名和密码。
这是“基础验证”,为了简化这个过程,我们可以创建一个HTTPBasicAuthHandler的实例,并让opener使用这个handler就可以啦。

HTTPBasicAuthHandler使用一个密码管理的对象来处理URLs和realms来映射用户名和密码。
如果你知道realm(从服务器发送来的头里)是什么,你就能使用HTTPPasswordMgr。

通常人们不关心realm是什么。那样的话,就能用方便的HTTPPasswordMgrWithDefaultRealm。
这个将在你为URL指定一个默认的用户名和密码。
这将在你为特定realm提供一个其他组合时得到提供。
我们通过给realm参数指定None提供给add_password来指示这种情况。

最高层次的URL是第一个要求验证的URL。你传给.add_password()更深层次的URLs将同样合适。
说了这么多废话,下面来用一个例子演示一下上面说到的内容。


我们建一个urllib2_test12.py来测试一下info的应用:

  1. # -*- coding: utf-8 -*-
  2. import urllib2
  3. # 创建一个密码管理者
  4. password_mgr = urllib2.HTTPPasswordMgrWithDefaultRealm()
  5. # 添加用户名和密码
  6. top_level_url = "http://example.com/foo/"
  7. # 如果知道 realm, 我们可以使用他代替 ``None``.
  8. # password_mgr.add_password(None, top_level_url, username, password)
  9. password_mgr.add_password(None, top_level_url,'why', '1223')
  10. # 创建了一个新的handler
  11. handler = urllib2.HTTPBasicAuthHandler(password_mgr)
  12. # 创建 "opener" (OpenerDirector 实例)
  13. opener = urllib2.build_opener(handler)
  14. a_url = 'http://www.baidu.com/'
  15. # 使用 opener 获取一个URL
  16. opener.open(a_url)
  17. # 安装 opener.
  18. # 现在所有调用 urllib2.urlopen 将用我们的 opener.
  19. urllib2.install_opener(opener)
复制代码

注意:以上的例子我们仅仅提供我们的HTTPBasicAuthHandler给build_opener。
默认的openers有正常状况的handlers:ProxyHandler,UnknownHandler,HTTPHandler,HTTPDefaultErrorHandler, HTTPRedirectHandler,FTPHandler, FileHandler, HTTPErrorProcessor。

代码中的top_level_url 实际上可以是完整URL(包含"http:",以及主机名及可选的端口号)。

例如:http://example.com/
也可以是一个“authority”(即主机名和可选的包含端口号)。
例如:“example.com” or “example.com:8080”。
后者包含了端口号。




相关内容:

[Python]网络爬虫(一)、(二)


[Python]网络爬虫(五)、(六)

[Python]网络爬虫(七)(八)

[Python]网络爬虫(九)(十)

[Python]网络爬虫(11)(12)




欢迎加入about云群90371779322273151432264021 ,云计算爱好者群,亦可关注about云腾讯认证空间||关注本站微信

已有(2)人评论

跳转到指定楼层
anyhuayong 发表于 2014-12-16 08:11:45
学习中,楼主辛苦
回复

使用道具 举报

anyhuayong 发表于 2014-12-18 08:16:48
很喜欢,楼主辛苦
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

关闭

推荐上一条 /2 下一条