Puppeteer 是 Google 基于 Node.js 开发的一个工具,有了它我们可以通过 JavaScript 来控制 Chrome 浏览器的一些操作,当然也可以用作网络爬虫上,其 API 极其完善,功能非常强大。 而 Pyppeteer 又是什么呢?它实际上是 Puppeteer 的 Python 版本的实现,但他不是 Google 开发的,是一位来自于日本的工程师依据 Puppeteer 的一些功能开发出来的非官方版本。
Pyppeteer 就是依赖于 Chromium 这个浏览器来运行的。那么有了 Pyppeteer 之后,我们就可以免去那些繁琐的环境配置等问题。如果第一次运行的时候,Chromium 浏览器没有安装,那么程序会帮我们自动安装和配置,就免去了繁琐的环境配置等工作。另外 Pyppeteer 是基于 Python 的新特性 async 实现的,所以它的一些执行也支持异步操作,效率相对于 Selenium 来说也提高了。
首先,要安装pyppeteer,既然pyppeteer是基于Python,所以先要安装好Python,然后再使用命令pip install pyppeteer安装。
第一章:使用pyppeteer启动浏览器,访问一个网页,并关闭浏览器,
import asyncio from pyppeteer import launch async def main(): browser = await launch(headless=False) page = await browser.newPage() await page.goto('https://www.baidu.com') await asyncio.sleep(10) await browser.close() asyncio.get_event_loop().run_until_complete(main())
第二章:参数设置,修改浏览器大小,网页大小
第三章:过webdriver 检测
第四章:访问网页,锁定网页元素,进行输入与点击操作。
第五章:访问百度,并通过关键词搜索找到指定的网站,并进行点击。
pyppeteer是目前很多人用来写快排的一个工具,本次教程会教会你如何使用,但是不包含快排算法。有需要学习的朋友可以联系QQ:812988684
评论