问答社区

原创作者: 图龙网络科技发布时间： 2023-09-23 236.64K 人阅读

如何用Python抓取JavaScript生成的内容？获取JavaScript生成的内容

太极混元发布于 5个月前分类：知识文档

要抓取JavaScript生成的内容，你需要使用一个能够执行JavaScript代码的库，因为传统的HTTP请求库（如`requests`）只能获取静态内容，无法执行JavaScript。以下是几种常用的方法：

1. Selenium：Selenium是一个自动化测试工具，可以模拟浏览器行为，包括执行JavaScript。你可以使用Selenium来模拟用户访问网页，获取JavaScript生成的内容。

```python
from selenium import webdriver

# 设置Selenium驱动
driver = webdriver.Chrome()

# 访问网页
driver.get("http://example.com")

# 获取页面内容
html_content = driver.page_source

# 处理内容...

# 关闭浏览器
driver.quit()
```

2. Pyppeteer：Pyppeteer是一个Python库，它是Google Chrome的无头浏览器Puppeteer的Python端口。Pyppeteer允许你在无头浏览器中运行JavaScript代码，获取动态生成的内容。

```python
import asyncio
from pyppeteer import launch

async def main():
browser = await launch(headless=False) # headless=False可以打开浏览器界面
page = await browser.newPage()
await page.goto('http://example.com')
html_content = await page.content()
print(html_content)

asyncio.get_event_loop().run_until_complete(main())
```

3. Scrapy + Splash：Scrapy是一个强大的爬虫框架，Splash是一个JavaScript渲染服务。你可以将Scrapy与Splash结合使用，让Splash处理JavaScript渲染，Scrapy负责抓取内容。

首先，你需要安装Splash并运行它：

```bash
docker run -p 8050:8050 scrapinghub/splash
```

然后，在Scrapy项目中使用Splash：

```python
import scrapy
from scrapy_splash import SplashRequest

class MySpider(scrapy.Spider):
name = 'my_spider'

def start_requests(self):
url = 'http://example.com'
yield SplashRequest(url, self.parse, endpoint='render.html', args={'wait': 1})

def parse(self, response):
# 处理JavaScript生成的内容
print(response.text)
```

4. Playwright：Playwright是一个Node库，用于自动化Chromium、Firefox和WebKit。Python有相应的端口，可以模拟浏览器行为，包括执行JavaScript。

```python
from playwright.sync_api import sync_playwright

def run(playwright):
browser = playwright.chromium.launch()
page = browser.new_page()
page.goto("http://example.com")
html_content = page.content()
print(html_content)
browser.close()

with sync_playwright() as playwright:
run(playwright)
```

这些方法都可以帮助你抓取JavaScript生成的内容。选择哪种方法取决于你的具体需求和项目规模。Selenium和Playwright适合于简单的任务，而Pyppeteer和Scrapy + Splash更适合于复杂的、大规模的爬虫项目。