在对网上的免费代理IP进行抓取之后,我们需要对这些IP进行验证。因为免费IP虽然数量可观,但是这当中有着很多不能用的劣质IP,所以我们要做一步验证来进行筛选。
验证可用的代理
验证代理是否可用的方法比较多,在批量验证时可以使用python来实现,这里面验证代理是否可用的方法为直接使用代理访问baidu.com,若返回状态为200,则说明代理可用。反之,则说明不可用。
对已经采集的HTTPS代理进行验证:
提取出HTTPS代理的IP、端口,保存到本地的测试文件中。测试文件格式如下:
验证代理是否可用的python代码如下:
#coding:utf-8
from requests import *
import re
for proxy in open("https.txt"):
proxy = proxy.replace('\n','')
proxies={"https":proxy}
headers = {
"Host": "www.baidu.com",
"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:56.0) Gecko/20100101 Firefox/56.0",
"Accept": "*/*",
"Accept-Language": "en-US,en;q=0.5",
"Accept-Encoding": "gzip, deflate",
"Referer": "https://www.baidu.com/"
}
url = 'https://www.baidu.com'
try:
html = get(url,timeout=10,headers=headers,proxies=proxies)
if html.status_code == 200:
proxy = proxy.split('https://')[1]
f = open('./proxyip.txt','a')
print(proxy,file=f)
except Exception as e:
print(e)
pass
提取出验证成功的代理IP地址和端口号,如下所示:
选择验证成功的进行测试,成功正常使用。
如果IP不可用的话,那么我们抓取的数量再多也是白费力气,所以如果你的项目需要动用比较高质量的IP,那么建议你还是选择优质的代理服务商比较合适。
相关文章内容简介
1 验证代理IP的可用性
在对网上的免费代理IP进行抓取之后,我们需要对这些IP进行验证。因为免费IP虽然数量可观,但是这当中有着很多不能用的劣质IP,所以我们要做一步验证来进行筛选。 验证可用的代理 验证代理是否可用的方法比较多,在批量验证时可以使用python来实现,这里面验证代理是否可用的方法为直接使用代理访问baidu.com,若返回状态为200,则说明代理可... [阅读全文]
最新标签
推荐阅读
热门文章
在线咨询
客户经理
公众号
关注公众号,免费领试用
大客户