一些基础的反爬虫机制,我们能够通过网上的教程来解决,利用代理IP就可以帮助到。可是,如果是遇到一些反爬机制比较复杂的网站,我们就需要下点功夫来研究了。看看还有哪些典型的复杂反爬虫策略:
一、 FONT-FACE拼凑式
范例:猫眼电影
猫眼电影网站,针对票房信息等展示的并非纯粹的数字。
网页采用font-face定义了字符集,并利用unicode去映射呈现。换句话说,去掉图像识别,必须同时抓取字符集,才能分辨出数字。
而且,每次页面刷新,字符集的url都会发生改变的,显然更大强度地提高了爬取成本。
二、IFRAME异步加载式
范例:网易云音乐
网易云音乐网页一打开,html源码里基本上只有一个iframe,而且它的src是空白的:about:blank。接着js开始运行,把整个页面的框架异步塞到了iframe里面…
不过这一方法造成的难度并不大,仅仅在异步与iframe处理上绕了个弯,不管你是用selenium还是phantom,都有API能够拿到iframe里面的content数据。
三、字符穿插式
范例:微信公众号文章
一些微信公众平台的文章里,穿插了各类迷之字符,而且按照样式把这些字符隐藏掉。
这类方式尽管惨绝人寰…但我觉得找不到太大的识别与过滤难度,甚至能够做得更好,不过也算作一种脑洞吧。
四、伪元素隐藏式
范例:汽车之家
汽车之家网站里,将关键的厂商数据,做到了伪元素的content里。
这又是一种策略:爬取网页,一定得解析css,还要拿到伪元素的content,这就提高了爬取的难度。
五、元素定位覆盖式
范例:去哪儿
酷爱数学的去哪儿,针对一个4位数的票价,首先用4个i标签渲染,然后2个b标签去绝对定位偏移量,覆盖有意呈现错误的i标签,最终在视觉上建立正确的价格…
这就表明爬虫能解析css还不够,还要会做数学题。
六、BACKGROUND拼凑式
范例:美团
与font的方式差不多,美团里采用的是background拼凑。数字其实是图片,按照不同的background偏移,显示出不一样的字符。
而且不同页面,图片的字符排序都是有差异的。不过理论上只需生成0-9与小数点,为什么有重复字符还没有搞明白。
七、字符集替换式
范例:去哪儿移动版
一样会欺骗爬虫的还有去哪儿的移动版。
html里明明写的3211,视觉上呈现的却是1233。原来他们重新定义了字符集,3与1的顺序刚好调换得来的结果…
一些比较大型的网站,为了保护网站的原创性跟内容,会在这方面多下功夫,我们也需要对不同网站的机制进行了解。
相关文章内容简介
1 代理IP分享7种网站反爬虫实例
一些基础的反爬虫机制,我们能够通过网上的教程来解决,利用代理IP就可以帮助到。可是,如果是遇到一些反爬机制比较复杂的网站,我们就需要下点功夫来研究了。看看还有哪些典型的复杂反爬虫策略: 一、∵FONT-FACE拼凑式 范例:猫眼电影 猫眼电影网站,针对票房信息等展示的并非纯粹的数字。 网页采用font-face定义了字符集,并利用... [阅读全文]
最新标签
推荐阅读
31
2019-10
爬虫要怎么设计运行?
互联网时代,网络爬虫是常规操作了,比较常见的就有像搜索引擎蜘蛛,它通过每天抓取不同网站的信息,当用户进行搜索的时候,才能够进行返回有效信息。黑洞代理下面为大家介绍爬虫要怎
07
2019-11
正向代理、反向代理的对比
代理服务器可以分为正向代理、反向代理,使用的时候,大家可能感受不出来具体有什么不同。但是这两种其实存在不少差异,使用场景也不一样。
31
2019-10
网络爬虫为什么会出现乱码?
代理IP让爬虫变得更加方便,降低了准入门槛,让很多人也开始学习如何编写爬虫程序。在爬虫的时候,会出现很多情况,黑洞代理跟大家分享当你的爬虫出现乱码如何解决。
31
2019-10
Urllib库怎么使用?
用pyhton来进行爬虫是很多爬虫工作者的选择,大数据在各行各业都发挥着作用,企业也对数据分析给予更多的关注,黑洞代理今天给大家介绍Urllib库的使用。
热门文章
在线咨询
客户经理
公众号
关注公众号,免费领试用
大客户