scrapy如何使用代理IP?或许有部分小伙伴会不太清楚scrapy里面要怎么才能够用到代理IP,其实配置的操作是比较简单的,下面我们一起来看看。
使用scrapy-proxy随机IP代理插件,以下是黑洞代理介绍的具体操作:
安装:
pip install scrapy_proxies
设置settings.py
# Retry many times since proxies often fail
RETRY_TIMES = 10
# Retry on most error codes since proxies fail for different reasons
RETRY_HTTP_CODES = [500, 503, 504, 400, 403, 404, 408]
DOWNLOADER_MIDDLEWARES = {
'scrapy.downloadermiddlewares.retry.RetryMiddleware': 90,
'scrapy_proxies.RandomProxy': 100,
'scrapy.downloadermiddlewares.httpproxy.HttpProxyMiddleware': 110,
}
# ip文件示例如下
# http://host1:port
# http://username:password@host2:port
# http://host3:port
# 这是存放代理IP列表的位置
PROXY_LIST = '/path/to/proxy/list.txt'
#代理模式
# 0 = 每个请求都有不同的代理
# 1 = 仅从列表中获取一个代理,并将其分配给每个请求
# 2 = 在设置中使用自定义代理
PROXY_MODE = 0
#如果使用模式2,将下面解除注释:
#CUSTOM_PROXY = http://host1:port
使用方法:
将之前用Python爬到的代理IP列表存储到PROXY_LIST可以找到的位置;
几种PROXY_MODE里,可能0是最常用的;如果有哪个IP是特别稳定的话,应该使用2。
这样我们就在scrapy设置好代理IP的使用啦,大家可以跟着教程来操作看看。
相关文章内容简介
1 scrapy如何实现代理IP?
scrapy如何使用代理IP?或许有部分小伙伴会不太清楚scrapy里面要怎么才能够用到代理IP,其实配置的操作是比较简单的,下面我们一起来看看。 使用scrapy-proxy随机IP代理插件,以下是黑洞代理介绍的具体操作: 安装: pip∵install∵scrapy_proxies 设置settings.py #∵Retry∵many∵times∵since∵proxies∵often∵fail RETRY_TIMES∵=∵10 #∵Retry∵on∵most∵e... [阅读全文]
最新标签
推荐阅读
31
2019-10
网络爬虫为什么会出现乱码?
代理IP让爬虫变得更加方便,降低了准入门槛,让很多人也开始学习如何编写爬虫程序。在爬虫的时候,会出现很多情况,黑洞代理跟大家分享当你的爬虫出现乱码如何解决。
07
2019-11
正向代理、反向代理的对比
代理服务器可以分为正向代理、反向代理,使用的时候,大家可能感受不出来具体有什么不同。但是这两种其实存在不少差异,使用场景也不一样。
31
2019-10
爬虫要怎么设计运行?
互联网时代,网络爬虫是常规操作了,比较常见的就有像搜索引擎蜘蛛,它通过每天抓取不同网站的信息,当用户进行搜索的时候,才能够进行返回有效信息。黑洞代理下面为大家介绍爬虫要怎
31
2019-10
Urllib库怎么使用?
用pyhton来进行爬虫是很多爬虫工作者的选择,大数据在各行各业都发挥着作用,企业也对数据分析给予更多的关注,黑洞代理今天给大家介绍Urllib库的使用。
热门文章
在线咨询
客户经理
公众号
关注公众号,免费领试用
大客户