网络爬虫可以帮助我们抓取到不同网站上的数据、信息,重点是我们要如何利用好它,如何配置好爬虫以及代理IP。
黑洞代理下面给大家分享一个爬虫实操案例,通过操作,我们可以看到爬虫的整个流程,以及代理IP在这个项目当中的使用。
爬虫目标设定:
1、使用pyppeteer库对浏览器进行操控,获取相关数据。
项目分析:
在长期的爬虫学习中常常遇到许多js网站,面对这些网站多数人使用无界面浏览器或者操控谷歌浏览器进行爬取,但是使用selenium的时候常常会面对繁琐的环境配置等问题,因此本文使用的是pyppeteer进行操作。
爬虫工作步骤分为以下4步:
1、获取网页内容
2、分析网页信息
3、保存信息内容
在爬虫开始之前,首先介绍一下pyppeteer。Pyppeteer是基于puppeter开发的python版本,其功能与puppeteer相似,但优点在于安装过程十分简单,只需输入pip install pyppeteer即可安装使用。
在python库安装完成之后,第一次运行会在电脑中下载浏览器chromium,大小在100MB左右。
在操作浏览器爬取过程中,直接输入淘宝网址后会发现淘宝会要求强制登陆操作:
这里我们有多种登录方式,但这里提供一种最为简单方法,使用userDataDir:
即设置用户目录,我们打开正常的谷歌浏览器发现淘宝并没有强制登陆,这是因为Cookies 已经保存到本地了所以并不需要每次都登录,除非删除Cookies。这些信息被保存在了用户目录之下,而Pyppeteer为我们提供了手动设置用户目录的方法即:userDataDir。
在使用userDataDir的时候,我们只需第一次登录即可,在此之后代码会主动到userdata下读取相应的信息,从而免去了登录。
在suop()函数中包含的是相应的beautifulsoup库的分析方法,首先获取所有的商品信息,然后遍历这些商品找出是新品的商品,并将商品信息保存到MongoDB数据库中。
代码实现如下:
结果如下:
总共爬取了一百页,新品数在共561个。
以上就成功将商品信息给爬取下来了,如果你想要学习爬虫,也可以按照这个案例步骤来实操练习一边,熟悉一下流程。
相关文章内容简介
1 利用爬虫抓取产品信息案例介绍
网络爬虫可以帮助我们抓取到不同网站上的数据、信息,重点是我们要如何利用好它,如何配置好爬虫以及代理IP。 黑洞代理下面给大家分享一个爬虫实操案例,通过操作,我们可以看到爬虫的整个流程,以及代理IP在这个项目当中的使用。 爬虫目标设定: 1、使用pyppeteer库对浏览器进行操控,获取相关数据。 项目分析: 在长期的爬虫... [阅读全文]
最新标签
推荐阅读
07
2019-11
正向代理、反向代理的对比
代理服务器可以分为正向代理、反向代理,使用的时候,大家可能感受不出来具体有什么不同。但是这两种其实存在不少差异,使用场景也不一样。
31
2019-10
Urllib库怎么使用?
用pyhton来进行爬虫是很多爬虫工作者的选择,大数据在各行各业都发挥着作用,企业也对数据分析给予更多的关注,黑洞代理今天给大家介绍Urllib库的使用。
31
2019-10
网络爬虫为什么会出现乱码?
代理IP让爬虫变得更加方便,降低了准入门槛,让很多人也开始学习如何编写爬虫程序。在爬虫的时候,会出现很多情况,黑洞代理跟大家分享当你的爬虫出现乱码如何解决。
31
2019-10
爬虫要怎么设计运行?
互联网时代,网络爬虫是常规操作了,比较常见的就有像搜索引擎蜘蛛,它通过每天抓取不同网站的信息,当用户进行搜索的时候,才能够进行返回有效信息。黑洞代理下面为大家介绍爬虫要怎
热门文章
在线咨询
客户经理
公众号
关注公众号,免费领试用
大客户