您的位置：首页 > 新闻资讯 > 正文

利用爬虫抓取产品信息案例介绍

发布时间：2019-11-11 14:52:41 来源：

网络爬虫可以帮助我们抓取到不同网站上的数据、信息，重点是我们要如何利用好它，如何配置好爬虫以及代理IP。

利用爬虫抓取产品信息案例介绍

黑洞代理下面给大家分享一个爬虫实操案例，通过操作，我们可以看到爬虫的整个流程，以及代理IP在这个项目当中的使用。

爬虫目标设定：

1、使用pyppeteer库对浏览器进行操控，获取相关数据。

项目分析：

在长期的爬虫学习中常常遇到许多js网站，面对这些网站多数人使用无界面浏览器或者操控谷歌浏览器进行爬取，但是使用selenium的时候常常会面对繁琐的环境配置等问题，因此本文使用的是pyppeteer进行操作。

爬虫工作步骤分为以下4步：

1、获取网页内容

2、分析网页信息

3、保存信息内容

在爬虫开始之前，首先介绍一下pyppeteer。Pyppeteer是基于puppeter开发的python版本，其功能与puppeteer相似，但优点在于安装过程十分简单，只需输入pip install pyppeteer即可安装使用。

在python库安装完成之后，第一次运行会在电脑中下载浏览器chromium，大小在100MB左右。

在操作浏览器爬取过程中，直接输入淘宝网址后会发现淘宝会要求强制登陆操作：

利用爬虫抓取产品信息案例介绍

这里我们有多种登录方式，但这里提供一种最为简单方法，使用userDataDir：

利用爬虫抓取产品信息案例介绍

即设置用户目录，我们打开正常的谷歌浏览器发现淘宝并没有强制登陆，这是因为Cookies 已经保存到本地了所以并不需要每次都登录，除非删除Cookies。这些信息被保存在了用户目录之下，而Pyppeteer为我们提供了手动设置用户目录的方法即：userDataDir。

在使用userDataDir的时候，我们只需第一次登录即可，在此之后代码会主动到userdata下读取相应的信息，从而免去了登录。

在suop()函数中包含的是相应的beautifulsoup库的分析方法，首先获取所有的商品信息，然后遍历这些商品找出是新品的商品，并将商品信息保存到MongoDB数据库中。

代码实现如下：

利用爬虫抓取产品信息案例介绍

结果如下：

利用爬虫抓取产品信息案例介绍

总共爬取了一百页，新品数在共561个。

以上就成功将商品信息给爬取下来了，如果你想要学习爬虫，也可以按照这个案例步骤来实操练习一边，熟悉一下流程。

黑洞IP