设置代理IP,作为一个比较常用的爬虫技巧,能够让我们不再受到IP限制。以前,我们用同一个IP来反复爬取网页的时候,会给网站的服务器带来压力,所以它们需要禁止这样的操作。
下面我们看看如何设置代理IP使用:
首先是配置环境:
1、安装requests库
2、安装bs4库
3、安装lxml库
具体代码:
函数get_ip_list(url, headers)传入url和headers,最后返回一个IP列表,列表的元素类似122.114.31.177:808格式,这个列表包括国内髙匿代理IP网站首页所有IP地址和端口。
函数get_random_ip(ip_list)传入第一个函数得到的列表,返回一个随机的proxies,这个proxies可以传入到requests的get方法中,这样就可以做到每次运行都使用不同的IP访问被爬取的网站,有效地避免了真实IP被封的风险。
proxies的格式是一个字典:{‘http’:‘http://122.114.31.177:808’},可以将下面的执行也封装为方法。
代理IP的使用:
运行上面的代码会得到一个随机的proxies,把它直接传入requests的get方法中即可
这样我们就完成了代理IP的配置与使用,可以愉快的开展爬虫了。
相关文章内容简介
1 爬虫程序中设置代理IP
设置代理IP,作为一个比较常用的爬虫技巧,能够让我们不再受到IP限制。以前,我们用同一个IP来反复爬取网页的时候,会给网站的服务器带来压力,所以它们需要禁止这样的操作。 下面我们看看如何设置代理IP使用: 首先是配置环境: 1、安装requests库 2、安装bs4库 3、安装lxml库 具体代码: 函数get_ip_list(url,∵ headers)传入u... [阅读全文]
最新标签
推荐阅读
31
2019-10
Urllib库怎么使用?
用pyhton来进行爬虫是很多爬虫工作者的选择,大数据在各行各业都发挥着作用,企业也对数据分析给予更多的关注,黑洞代理今天给大家介绍Urllib库的使用。
31
2019-10
网络爬虫为什么会出现乱码?
代理IP让爬虫变得更加方便,降低了准入门槛,让很多人也开始学习如何编写爬虫程序。在爬虫的时候,会出现很多情况,黑洞代理跟大家分享当你的爬虫出现乱码如何解决。
31
2019-10
爬虫要怎么设计运行?
互联网时代,网络爬虫是常规操作了,比较常见的就有像搜索引擎蜘蛛,它通过每天抓取不同网站的信息,当用户进行搜索的时候,才能够进行返回有效信息。黑洞代理下面为大家介绍爬虫要怎
07
2019-11
正向代理、反向代理的对比
代理服务器可以分为正向代理、反向代理,使用的时候,大家可能感受不出来具体有什么不同。但是这两种其实存在不少差异,使用场景也不一样。
热门文章
在线咨询
客户经理
公众号
关注公众号,免费领试用
大客户