您的位置: 首页 > 新闻资讯 > 正文

Python网络爬虫反限定的初始阶段,你需要知道改ip代理地址

发布时间:2019-11-22 00:00:00 来源:

前言

Python爬虫要经历爬虫、爬虫被限制、爬虫反限制的过程。当然后续还要网页爬虫限制优化,爬虫再反限制的一系列道高一尺魔高一丈的过程。爬虫的初级阶段,添加headers和ip代理可以解决很多问题。

Python网络爬虫反限定的初始阶段,你需要知道改ip代理地址


思路:

  1. 爬取一些IP,过滤掉不可用.

  2. 在requests的请求的proxies参数加入对应的IP.

  3. 继续爬取.

  4. 收工

  5. 好吧,都是废话,理论大家都懂,下面直接上代码...

运行环境

Python 3.7, Pycharm

这些需要大家直接去搭建好环境...

准备工作

  1. 爬取IP地址的网站(国内高匿代理)

  2. 校验IP地址的网站

  3. 你之前被封IP的py爬虫脚本...

上面的网址看个人的情况来选取

爬取IP的完整代码

PS:简单的使用bs4获取IP和端口号,没有啥难度,里面增加了一个过滤不可用IP的逻辑

关键地方都有注释了


使用方法完整代码

PS: 主要是通过使用随机的IP来爬取,根据request_status来判断这个IP是否可以用.

为什么要这样判断?

主要是虽然上面经过了过滤,但是不代表在你爬取的时候是可以用的,所以还是得多做一个判断.


为什么选择国内高匿代理!


Python网络爬虫反限定的初始阶段,你需要知道改ip代理地址


总结

使用这样简单的代理IP,基本上就可以应付在爬爬爬着被封IP的情况了.而且没有使用自己的IP,间接的保护?!?!好了,以上就是这篇文章的全部内容了,大家有其他的更加快捷的方法,欢迎大家可以拿出来交流和讨论,谢谢。

我是一名python开发工程师,整理了一套python的学习资料,如果你想提升自己,对编程感兴趣,关注我并在后台私信小编:“08”即可免费领取资料!希望对你能有所帮助!

相关文章内容简介

1 Python网络爬虫反限定的初始阶段,你需要知道改ip代理地址

前言Python爬虫要经历爬虫、爬虫被限制、爬虫反限制的过程。当然后续还要网页爬虫限制优化,爬虫再反限制的一系列道高一尺魔高一丈的过程。爬虫的初级阶段,添加headers和ip代理可以解决很多问题。思路:爬取一些IP,过滤掉不可用.在requests的请求的proxies参数加入对应的IP.继续爬取.收工好吧,都是废话,理论大家都懂,下面直接上代码...运行环境Python∵3.7,∵Py... [阅读全文]