Python 爬虫:6 个常用的爬虫技巧总结!

 时间:2024-10-31 19:16:09

1、基本抓取网页get方法和post方法

Python 爬虫:6 个常用的爬虫技巧总结!

2、使用代理IP在开发爬虫过程中经常会遇到IP被封掉的情况,这时就需要用到代理IP;在urllib2包中有ProxyHandler类,通过此类可以设置代理访问网页,如下代码片段:

Python 爬虫:6 个常用的爬虫技巧总结!

4、关键在于CookieJar(),它用于管理HTTP cookie值、存储HTTP请求生成的cookie、向传出的HTTP请求添加cookie的对象。整个cookie都存储在内存中,对CookieJar实例进行垃圾回收后cookie也将丢失,所有过程都不需要单独去操作。手动添加cookie

Python 爬虫:6 个常用的爬虫技巧总结!

6、gzip压缩有没有遇到过某些网页,不论怎么转码都是一团乱码。哈哈,那说明你还不知道许多web服务具有发送压缩数据的能力,这可以将网络线路上传输的大量剞麽苍足数据消减 60% 以上。这尤其适用于 XML web 服务,因为 XML 数据 的压缩率可以很高。但是一般服务器不会为你发送压缩数据,除非你告诉服务器你可以处理压缩数据。于是需要这样修改代码:这是关键:创建Request对象,添加一个 Accept-encoding 头信息告诉服务器你能接受 gzip 压缩数据然后就是解压缩数据:

Python 爬虫:6 个常用的爬虫技巧总结!

7、多线程并发抓取单线程太慢的话,就需要多线程了,这里给个简单的线程池模板 这个程序只是简单地打印了1-10,但是可以看出是并发的。python的多线程对于爬虫这种网络频繁型,还是能一定程度提高效率的。

Python 爬虫:6 个常用的爬虫技巧总结!
  • select的filterable如何使用
  • css怎么设置div居左、居右、居中
  • 如何使用HTML里td的colspan属性
  • html给图像做超链接 地图索引
  • 新手使用myeclipse基本操作
  • 热门搜索
    镍怎么读 乙肝怎么治疗 为什么电脑 鸡汤怎么炖好喝又营养 空白页怎么删除 陈一发为什么封禁 为什么微信发不了语音 网络诈骗怎么报案 小酥肉的做法大全 麻辣香锅的做法视频