您的位置: 首页 > 新闻资讯 > 正文

爬虫程序中设置代理IP

发布时间:2019-10-31 15:16:22 来源:

设置代理IP,作为一个比较常用的爬虫技巧,能够让我们不再受到IP限制。以前,我们用同一个IP来反复爬取网页的时候,会给网站的服务器带来压力,所以它们需要禁止这样的操作。


下面我们看看如何设置代理IP使用:


首先是配置环境:


1、安装requests库


2、安装bs4库


3、安装lxml库


具体代码:

爬虫程序中设置代理IP


函数get_ip_list(url, headers)传入url和headers,最后返回一个IP列表,列表的元素类似122.114.31.177:808格式,这个列表包括国内髙匿代理IP网站首页所有IP地址和端口。


函数get_random_ip(ip_list)传入第一个函数得到的列表,返回一个随机的proxies,这个proxies可以传入到requests的get方法中,这样就可以做到每次运行都使用不同的IP访问被爬取的网站,有效地避免了真实IP被封的风险。


proxies的格式是一个字典:{‘http’:‘http://122.114.31.177:808’},可以将下面的执行也封装为方法。

代理IP的使用:


运行上面的代码会得到一个随机的proxies,把它直接传入requests的get方法中即可

爬虫程序中设置代理IP


这样我们就完成了代理IP的配置与使用,可以愉快的开展爬虫了。


相关文章内容简介

1 爬虫程序中设置代理IP

  设置代理IP,作为一个比较常用的爬虫技巧,能够让我们不再受到IP限制。以前,我们用同一个IP来反复爬取网页的时候,会给网站的服务器带来压力,所以它们需要禁止这样的操作。  下面我们看看如何设置代理IP使用:  首先是配置环境:  1、安装requests库  2、安装bs4库  3、安装lxml库  具体代码:    函数get_ip_list(url,∵ headers)传入u... [阅读全文]

最新标签