反爬策略总结

简单低级的爬虫速度快，伪装度低，如果没有反爬机制，它们可以很快的抓取大量数据，甚至因为请求过多，造成服务器不能正常工作。而伪装度高的爬虫爬取速度慢，对服务器造成的负担也相对较小。所以，网站反爬的重点也是那种简单粗暴的爬虫，反爬机制也会允许伪装度高的爬虫，获得数据。毕竟伪装度很高的爬虫与真实用户也就没有太大差别了。
如何应对普通的反爬机制，主要有三个方法：
1、header检验
2、用户异常行为：IP/账号
3、动态加载页面

1.header检验

最简单的反爬机制，就是检查HTTP请求的Headers信息，包括User-Agent，Referer，Cookies等。

User-Agent

User-Agent是检查用户所用客户端的种类和版本，在Scrapy中，通常是在下载器中间件中进行处理。比如在setting.py中建立一个包含很多浏览器User-Agent的列表，然后新建一个random_user_agent文件。

Referer

Referer是检查此请求由哪里来，通常可以做图片的盗链判断。在Scrapy中，如果某个页面url是通过之前爬取的页面提取到，Scrapy会自动把之前爬取的页面url作为Referfer。也可以通过上面的方式自己定义Referfer字段。

网站可能会检测Cookie中session_id的使用次数，如果超过限制，就触发反爬策略。所以可以在Scrapy中设置COOKIES_ENABLED = False让请求不带Cookies。也有网站强制开启Cookis，这时就要麻烦一点了。可以另写一个简单的爬虫，定时向目标网站发送不带Cookies的请求，提取响应中Set-cookie字段信息并保存。爬取网页时，把存储起来的Cookies带入Headers中。

2.用户异常行为

限制IP的请求数量：

使用IP代理就可以解决。可以专门写一个爬虫，爬取网上公开的代理ip，检测后全部保存起来。这样的代理ip爬虫经常会用到，最好自己准备一个。有了大量代理ip后可以每请求几次更换一个ip，这在requests或者urllib2中很容易做到，这样就能很容易的绕过第一种反爬虫。

同一账户短时间内多次进行相同操作：

可以在每次请求后随机间隔几秒再进行下一次请求。有些有逻辑漏洞的网站，可以通过请求几次，退出登录，重新登录，继续请求来绕过同一账号短时间内不能多次进行相同请求的限制

3.动态加载页面：

一部分网站，需要爬取的数据是通过ajax请求得到，或者通过JavaScript生成的。首先用Firebug或者HttpFox对网络请求进行分析。如果能够找到ajax请求，也能分析出具体的参数和响应的具体含义，就能采用上面的方法，直接利用requests或者urllib2模拟ajax请求，对响应的json进行分析得到需要的数据。
解决方案：用selenium+phantomJS框架，调用浏览器内核，并利用phantomJS执行js来模拟人为操作以及触发页面中的js脚本

参考

https://www.jianshu.com/p/af7027ba68cc

日常笔记总结

爬虫反爬虫

本博客所有文章除特别声明外，均采用 CC BY-SA 4.0 协议，转载请注明出处！

图网络基础——P1-Introduction and Graph Structure 上一篇

Python爬取音视频节目下一篇