Python pyppeteer库

2025 年 10 月 27 日

114 次浏览

暂无评论

4621字数

Python

一、pyppeteer是什么？

pyppeteer是Puppeteer的Python非官方端口，通过CFFI技术绑定Chromium浏览器，实现自动化操作。它专为现代网页设计，能高效处理动态内容加载、JavaScript渲染等反爬虫机制，是爬虫工程师对抗反爬的利器。

二、核心特性

1、无头浏览器控制

支持无界面模式运行，节省资源且隐蔽性强：

browser = await launch(headless=True) # 默认无头模式

2、动态内容渲染

完美处理SPA（单页应用）和AJAX加载内容：

await page.waitForSelector('.dynamic-content') # 等待动态元素加载

3、反爬虫对抗

代理支持：

await page.authenticate({
  'username': 'proxyUser', 'password': 'proxyPass'
})

指纹伪装：

await page.evaluateOnNewDocument('''
  Object.defineProperty(navigator, 'webdriver', {get: () => false})
''')

4、高性能异步

基于asyncio实现原生异步，支持高并发请求：

async def main():
browser = await launch()
# 并行处理多个页面...

三、安装指南

系统要求
Python 3.6+（推荐3.8+）
Linux/macOS/Windows（Windows需安装Visual Studio Build Tools）
安装步骤
```
pip install pyppeteer
```

验证安装

import asyncio
from pyppeteer import launch
async def check():
  browser = await launch()
  page = await browser.newPage()
  await page.goto('https://example.com')
  print(await page.title())
  await browser.close()
asyncio.run(check()) # 应输出"Example Domain"

四、基础用法详解

启动浏览器

# 指定Chromium路径（如使用系统自带Chrome）
browser = await launch(
  executablePath='/usr/bin/google-chrome',
  headless=False # 显示浏览器界面调试
)

页面操作

# 导航与截图
await page.goto('https://httpbin.org/get', waitUntil='networkidle2')
await page.screenshot({
  'path': 'screenshot.png', 'fullPage': True
})
# 执行JavaScript
dimension = await page.evaluate('''() => {
  return {
      width: document.documentElement.clientWidth,
      height: document.documentElement.clientHeight
  }
}''')

元素交互

# 输入与点击
await page.type('#username', 'my_user')
await page.click('#submit', delay=100) # 添加100ms延迟模拟人类操作
# 下拉框选择
await page.select('#country', 'US')

五、高级特性解析

动态内容处理

# 无限滚动加载
async def scroll_to_bottom(page):
  while True:
      await page.evaluate('window.scrollBy(0, 1000)')
      await asyncio.sleep(1)
      if await page.evaluate('document.documentElement.scrollTop >= document.body.scrollHeight - 1000'):
          break

网络请求拦截

# 拦截并修改请求
async def intercept_request(page):
  await page.setRequestInterception(True)
  page.on('request', lambda req: asyncio.create_task(handle_request(req)))
async def handle_request(request):
  if request.url.endswith('.js'):
      await request.abort() # 阻止JS文件加载
  else:
      await request.continue_()

多标签页管理

# 创建新标签页
new_page = await browser.newPage()
await new_page.goto('https://example.com/new')
# 切换标签页
pages = await browser.pages()
await pages[1].bringToFront()

六、实战案例：知乎反爬虫突破

import asyncio
from pyppeteer import launch

async def scrape_zhihu():
    browser = await launch(headless=False)
    page = await browser.newPage()
    # 设置代理与伪装
    await page.authenticate({
        'username': 'proxy_user', 'password': 'proxy_pass'
    })
    await page.evaluateOnNewDocument('''
        Object.defineProperty(navigator, 'webdriver', {get: () => false})
    ''')
    # 访问并登录
    await page.goto('https://www.zhihu.com/signin')
    await page.type('#account', 'your_username')
    await page.type('#password', 'your_password')
    await page.click('.SignFlow-submitButton')
    # 等待登录完成
    await page.waitForNavigation()
    # 抓取问题与回答
    questions = await page.querySelectorAll('.QuestionItem-title')
    for q in questions:
        print(await q.getProperty('textContent'))
    await browser.close()
asyncio.run(scrape_zhihu())

七、性能优化技巧

1、连接复用

复用浏览器实例减少资源消耗：

browser = await launch()
# 多次使用同一个browser实例...

2、并行处理

使用asyncio.gather实现并发请求：

async def main():
    browser = await launch()
    tasks = [fetch_data(browser, url) for url in urls]
    await asyncio.gather(*tasks)

3、内存管理

及时释放资源：

await page.close() # 关闭标签页
await browser.close() # 关闭浏览器

八、常见问题解答

Q1: 安装时提示"Chromium revision is not downloaded"

A: 手动下载Chromium：

python -c "import pyppeteer; pyppeteer.chromium_downloader.download_chromium()"

Q2: 如何处理验证码？

A: 结合OCR或第三方服务：

# 使用Tesseract OCR
from PIL import Image
import pytesseract

img = await page.screenshot()
text = pytesseract.image_to_string(Image.open(img))

Q3: 如何避免被检测到是爬虫？

A: 综合使用以下策略：

随机延迟（await asyncio.sleep(random.uniform(1,3))）
伪装User-Agent
旋转代理IP
模拟人类操作（如滚动、鼠标移动）

Python pyppeteer库

无影 • 2025 年 10 月 27 日

Python pyppeteer库

一、pyppeteer是什么？

二、核心特性

1、无头浏览器控制

2、动态内容渲染

3、反爬虫对抗

4、高性能异步

三、安装指南

四、基础用法详解

五、高级特性解析

六、实战案例：知乎反爬虫突破

七、性能优化技巧

1、连接复用

2、并行处理

3、内存管理

八、常见问题解答

Q1: 安装时提示"Chromium revision is not downloaded"

Q2: 如何处理验证码？

Q3: 如何避免被检测到是爬虫？

发表评论取消回复
使用cookie技术保留您的个人信息以便您下次快速评论，继续评论表示您已同意该条款

网址大全

美化备忘录

通过aspose将office转pdf

通过CloseableHttpClient实现文件上传

SpringBoot定时器

Vue3 setup如何使用this.$xxx全局变量

jasypt-配置文件加密使用说明

自动填充字段，如创建人或创建时间

通过微信文件监控实现防撤回

美化备忘录

Python pyppeteer库

一、pyppeteer是什么？

二、核心特性

1、无头浏览器控制

2、动态内容渲染

3、反爬虫对抗

4、高性能异步

三、安装指南

四、基础用法详解

五、高级特性解析

六、实战案例：知乎反爬虫突破

七、性能优化技巧

1、连接复用

2、并行处理

3、内存管理

八、常见问题解答

Q1: 安装时提示"Chromium revision is not downloaded"

Q2: 如何处理验证码？

Q3: 如何避免被检测到是爬虫？

发表评论 取消回复 使用cookie技术保留您的个人信息以便您下次快速评论，继续评论表示您已同意该条款

Python pyppeteer库

发表评论取消回复
使用cookie技术保留您的个人信息以便您下次快速评论，继续评论表示您已同意该条款