Como resolver desafios de web scraping com Scrapy e Playwright em 2025

All

Como resolver desafios de web scraping com Scrapy e Playwright em 2025

Como Resolver Desafios de Web Scraping com Scrapy e Playwright em 2025

Emma Foster

Machine Learning Engineer

12-Nov-2024

O que é Scrapy-Playwright?

Scrapy-Playwright é um middleware que integra o Scrapy, um framework rápido e poderoso de web scraping para Python, com o Playwright, uma biblioteca de automa??o de navegador. Essa combina??o permite que o Scrapy manipule sites com JavaScript pesado, aproveitando a capacidade do Playwright de renderizar conteúdo din?mico, interagir com páginas da web e gerenciar contextos de navegador perfeitamente.

Por que usar Scrapy-Playwright?

Embora o Scrapy seja excelente para raspar sites estáticos, muitos sites modernos dependem fortemente do JavaScript para renderizar conteúdo dinamicamente. Os spiders tradicionais do Scrapy podem ter dificuldades com esses sites, muitas vezes perdendo dados importantes ou falhando em navegar por estruturas de página complexas. O Scrapy-Playwright preenche essa lacuna, permitindo que o Scrapy controle um navegador sem cabe?a, garantindo que todo o conteúdo din?mico seja totalmente carregado e acessível para scraping.

Benefícios de usar Scrapy-Playwright

Renderiza??o de JavaScript: Raspe facilmente sites que carregam conteúdo dinamicamente usando JavaScript.
Navega??o sem Cabe?a: Execute tarefas de scraping sem um navegador visível, otimizando o desempenho.
Intera??es Avan?adas: Manipule intera??es complexas, como clicar em bot?es, preencher formulários e navegar pelas páginas.
Opera??es Assíncronas: Beneficie-se das capacidades assíncronas do Playwright para acelerar as tarefas de scraping.

Instala??o

Para come?ar a usar o Scrapy-Playwright, você precisa instalar o Scrapy e o Playwright. Veja como configurar seu ambiente:

Instale o Scrapy:
bash Copy
```
pip install scrapy
```
Instale o Scrapy-Playwright:
bash Copy
```
pip install scrapy-playwright
```
Instale os navegadores Playwright:

Após instalar o Playwright, você precisa instalar os binários do navegador necessários.
bash Copy
```
playwright install
```

Come?ando

Configurando um novo projeto Scrapy

Primeiro, crie um novo projeto Scrapy se você ainda n?o o fez:

bash Copy

scrapy startproject myproject
cd myproject

Configurando o Playwright

Em seguida, você precisa habilitar o Playwright nas configura??es do seu projeto Scrapy. Abra settings.py e adicione as seguintes configura??es:

python Copy

# settings.py

# Habilite o middleware de download Playwright
DOWNLOADER_MIDDLEWARES = {
    'scrapy_playwright.middleware.ScrapyPlaywrightDownloadHandler': 543,
}

# Especifique o manipulador de download para HTTP e HTTPS
DOWNLOAD_HANDLERS = {
    'http': 'scrapy_playwright.handler.ScrapyPlaywrightDownloadHandler',
    'https': 'scrapy_playwright.handler.ScrapyPlaywrightDownloadHandler',
}

# Habilite as configura??es do Playwright
TWISTED_REACTOR = 'twisted.internet.asyncioreactor.AsyncioSelectorReactor'

# Configura??es do Playwright (opcional)
PLAYWRIGHT_BROWSER_TYPE = 'chromium'  # Pode ser 'chromium', 'firefox' ou 'webkit'
PLAYWRIGHT_LAUNCH_OPTIONS = {
    'headless': True,
}

Uso básico

Criando um Spider

Com a configura??o concluída, vamos criar um spider simples que usa o Playwright para raspar um site renderizado por JavaScript. Para ilustra??o, vamos raspar um site hipotético que carrega conteúdo dinamicamente.

Crie um novo arquivo de spider dynamic_spider.py dentro do diretório spiders:

python Copy

# spiders/dynamic_spider.py

import scrapy
from scrapy_playwright.page import PageCoroutine

class DynamicSpider(scrapy.Spider):
    name = "dynamic"
    start_urls = ["https://example.com/dynamic"]

    def start_requests(self):
        for url in self.start_urls:
            yield scrapy.Request(
                url,
                meta={
                    "playwright": True,
                    "playwright_page_coroutines": [
                        PageCoroutine("wait_for_selector", "div.content"),
                    ],
                },
            )

    async def parse(self, response):
        # Extraia dados depois que o JavaScript renderizou o conteúdo
        for item in response.css("div.content"):
            yield {
                "title": item.css("h2::text").get(),
                "description": item.css("p::text").get(),
            }

        # Lidar com pagina??o ou intera??es adicionais, se necessário

Manipulando conteúdo renderizado por JavaScript

No exemplo acima:

playwright: True: Informa ao Scrapy para usar o Playwright para essa solicita??o.
playwright_page_coroutines: Especifica a??es para executar com o Playwright. Aqui, ele espera por um seletor div.content para garantir que o conteúdo din?mico tenha sido carregado antes de analisar.
Método parse assíncrono: Aproveita as capacidades assíncronas para lidar com a resposta de forma eficaz.

Resolvendo captchas com CapSolver

Um dos desafios significativos no web scraping é lidar com captchas, que s?o projetados para evitar acesso automatizado. O CapSolver é uma solu??o robusta que fornece servi?os de resolu??o de captcha, incluindo integra??es com ferramentas de automa??o de navegador, como Playwright. Nesta se??o, exploraremos como integrar o CapSolver com o Scrapy-Playwright para lidar com captchas perfeitamente.

O que é CapSolver?

O CapSolver é um servi?o de resolu??o de captcha que automatiza o processo de resolu??o de vários tipos de captchas, incluindo captcha e reCAPTCHA. Ao integrar o CapSolver em seu fluxo de trabalho de scraping, você pode ignorar desafios de captcha e manter o fluxo de suas tarefas de scraping sem interven??o manual.

Integrando o CapSolver com o Scrapy-Playwright

Para integrar o CapSolver com o Scrapy-Playwright, você precisará:

Obter a extens?o do navegador CapSolver: O CapSolver fornece uma extens?o de navegador que automatiza a resolu??o de captcha dentro de contextos de navegador.
Configurar o Playwright para carregar a extens?o CapSolver: Ao iniciar o navegador Playwright, carregue a extens?o CapSolver para habilitar a resolu??o de captcha.
Modificar solicita??es Scrapy para usar o contexto Playwright personalizado: Certifique-se de que suas solicita??es Scrapy utilizem o contexto Playwright com a extens?o CapSolver carregada.

Exemplo de implementa??o em Python

Abaixo, há um guia passo a passo para integrar o CapSolver com o Scrapy-Playwright, completo com código de exemplo.

1. Obter a extens?o do navegador CapSolver

Primeiro, baixe a extens?o do navegador CapSolver e coloque-a no diretório do seu projeto. Suponha que a extens?o esteja localizada em CapSolver.Browser.Extension.

2. Configure a extens?o:

Localize o arquivo de configura??o ./assets/config.json no diretório da extens?o CapSolver.
Defina a op??o enabledForcaptcha como true e ajuste o captchaMode para token para resolu??o automática.

Exemplo config.json:

json Copy

{
  "enabledForcaptcha": true,
  "captchaMode": "token"
  // outras configura??es permanecem as mesmas
}

3. Atualize as configura??es do Scrapy para carregar a extens?o

Modifique seu settings.py para configurar o Playwright para carregar a extens?o CapSolver. Você precisará especificar o caminho para a extens?o e passar os argumentos necessários para o Playwright.

python Copy

# settings.py

import os
from pathlib import Path

# Configura??es existentes do Playwright
PLAYWRIGHT_BROWSER_TYPE = 'chromium'
PLAYWRIGHT_LAUNCH_OPTIONS = {
    'headless': False,  # Deve ser Falso para carregar extens?es
    'args': [
        '--disable-extensions-except={}'.format(os.path.abspath('CapSolver.Browser.Extension')),
        '--load-extension={}'.format(os.path.abspath('CapSolver.Browser.Extension')),
    ],
}

# Certifique-se de que o reator Twisted esteja definido
TWISTED_REACTOR = 'twisted.internet.asyncioreactor.AsyncioSelectorReactor'

Nota: Carregar extens?es de navegador requer que o navegador seja executado no modo n?o sem cabe?a. Portanto, defina 'headless': False.

4. Crie um Spider que lida com captchas

Crie um novo spider ou modifique um existente para interagir com captchas usando a extens?o CapSolver.

python Copy

# spiders/captcha_spider.py

import scrapy
from scrapy_playwright.page import PageCoroutine
import asyncio

class CaptchaSpider(scrapy.Spider):
    name = "captcha_spider"
    start_urls = ["https://site.example/captcha-protected"]

    def start_requests(self):
        for url in self.start_urls:
            yield scrapy.Request(
                url,
                meta={
                    "playwright": True,
                    "playwright_page_coroutines": [
                        PageCoroutine("wait_for_selector", "iframe[src*='captcha']"),
                        PageCoroutine("wait_for_timeout", 1000),  # Aguarde a extens?o para processar
                    ],
                    "playwright_context": "default",
                },
                callback=self.parse_captcha
            )

    async def parse_captcha(self, response):
        page = response.meta["playwright_page"]

        # Localize a caixa de sele??o ou o frame captcha e interaja de acordo
        try:
            # Aguarde o iframe captcha estar disponível
            await page.wait_for_selector("iframe[src*='captcha']", timeout=10000)
            frames = page.frames
            captcha_frame = None
            for frame in frames:
                if 'captcha' in frame.url:
                    captcha_frame = frame
                    break

            if captcha_frame:
                # Clique na caixa de sele??o captcha
                await captcha_frame.click("div#checkbox")

                # Aguarde o captcha ser resolvido pelo CapSolver
                await page.wait_for_selector("div.captcha-success", timeout=60000)  # Ajuste o seletor conforme necessário

                self.logger.info("Captcha resolvido com sucesso.")
            else:
                self.logger.warning("captcha iframe n?o encontrado.")
        except Exception as e:
            self.logger.error(f"Erro ao lidar com o captcha: {e}")

        # Prossiga analisando a página depois que o captcha for resolvido
        for item in response.css("div.content"):
            yield {
                "title": item.css("h2::text").get(),
                "description": item.css("p::text").get(),
            }

        # Lidar com pagina??o ou intera??es adicionais, se necessário

5. Executando o Spider

Certifique-se de que todas as dependências estejam instaladas e execute seu spider usando:

bash Copy

scrapy crawl captcha_spider

Recursos avan?ados

Quando você se sentir confortável com os fundamentos, o Scrapy-Playwright oferece vários recursos avan?ados para aprimorar seus projetos de scraping.

Manipulando múltiplas páginas

Raspando várias páginas ou navegando por um site pode ser simplificado usando as capacidades de navega??o do Playwright.

python Copy

# spiders/multi_page_spider.py

import scrapy
from scrapy_playwright.page import PageCoroutine

class MultiPageSpider(scrapy.Spider):
    name = "multipage"
    start_urls = ["https://example.com/start"]

    def start_requests(self):
        for url in self.start_urls:
            yield scrapy.Request(
                url,
                meta={
                    "playwright": True,
                    "playwright_page_coroutines": [
                        PageCoroutine("wait_for_selector", "div.list"),
                        PageCoroutine("evaluate", "window.scrollTo(0, document.body.scrollHeight)"),
                    ],
                },
            )

    async def parse(self, response):
        # Extraia dados da primeira página
        for item in response.css("div.list-item"):
            yield {
                "name": item.css("span.name::text").get(),
                "price": item.css("span.price::text").get(),
            }

        # Navegue para a próxima página
        next_page = response.css("a.next::attr(href)").get()
        if next_page:
            yield scrapy.Request(
                response.urljoin(next_page),
                callback=self.parse,
                meta={
                    "playwright": True,
                    "playwright_page_coroutines": [
                        PageCoroutine("wait_for_selector", "div.list"),
                    ],
                },
            )

Usando contextos do Playwright

O Playwright permite a cria??o de vários contextos de navegador, o que pode ser útil para lidar com sess?es, cookies ou tarefas de scraping paralelas.

python Copy

# settings.py

PLAYWRIGHT_CONTEXTS = {
    "default": {
        "viewport": {"width": 1280, "height": 800},
        "user_agent": "CustomUserAgent/1.0",
    },
    "mobile": {
        "viewport": {"width": 375, "height": 667},
        "user_agent": "MobileUserAgent/1.0",
        "is_mobile": True,
    },
}

Em seu spider, especifique o contexto:

python Copy

# spiders/context_spider.py

import scrapy

class ContextSpider(scrapy.Spider):
    name = "context"
    start_urls = ["https://example.com"]

    def start_requests(self):
        yield scrapy.Request(
            self.start_urls[0],
            meta={
                "playwright": True,
                "playwright_context": "mobile",
            },
        )

    async def parse(self, response):
        # Sua lógica de análise aqui
        pass

Integrando com Middleware

O Scrapy-Playwright pode ser integrado a outros middlewares para aprimorar a funcionalidade, como lidar com novas tentativas, gerenciamento de proxy ou cabe?alhos personalizados.

python Copy

# settings.py

DOWNLOADER_MIDDLEWARES.update({
    'scrapy.downloadermiddlewares.retry.RetryMiddleware': 550,
    'scrapy_playwright.middleware.ScrapyPlaywrightDownloadHandler': 543,
})

# Exemplo de definir cabe?alhos personalizados
DEFAULT_REQUEST_HEADERS = {
    'User-Agent': 'MyCustomAgent/1.0',
    'Accept-Language': 'en-US,en;q=0.9',
}

Boas práticas

Para aproveitar ao máximo o Scrapy-Playwright e o CapSolver, considere as seguintes boas práticas:

Otimize o uso do Playwright: Use o Playwright apenas para solicita??es que exigem renderiza??o de JavaScript para economizar recursos.
Gerencie contextos de navegador: Reutilize contextos de navegador sempre que possível para melhorar o desempenho e reduzir o overhead.
Lidar com timeouts graciosamente: Defina timeouts apropriados e tratamento de erros para gerenciar páginas de carregamento lento.
Respeite o Robots.txt e os termos de servi?o: Sempre certifique-se de que suas atividades de scraping estejam em conformidade com as políticas do site de destino.
Implemente limita??o e atrasos: Evite sobrecarregar o servidor de destino, implementando práticas de scraping corretas.
Proteja suas chaves de API CapSolver: Armazene informa??es confidenciais, como chaves de API, com seguran?a e evite codificá-las em seus scripts.
Monitore e registre a atividade de scraping: Mantenha o controle de suas opera??es de scraping para identificar e resolver problemas rapidamente.

Código b?nus

Reivindique seu Código B?nus para as principais solu??es de captcha no CapSolver: scrape. Após resgatá-lo, você receberá um b?nus extra de 5% após cada recarga, ilimitado vezes.

Conclus?o

O Scrapy-Playwright é um divisor de águas para o web scraping, fechando a lacuna entre a extra??o de conteúdo estático e din?mico. Ao aproveitar o poder do framework robusto do Scrapy e da automa??o avan?ada de navegador do Playwright, você pode lidar com as tarefas de scraping mais desafiadoras com facilidade. Além disso, a integra??o do CapSolver permite que você supere desafios de captcha, garantindo a coleta de dados ininterrupta, mesmo dos sites mais protegidos.

Se você está raspando sites de comércio eletr?nico, plataformas de mídia social ou qualquer site com JavaScript intenso, o Scrapy-Playwright combinado com o CapSolver fornece as ferramentas de que você precisa para ter sucesso. Seguindo as melhores práticas e aproveitando essas integra??es poderosas, você pode construir solu??es de web scraping eficientes, confiáveis e escalonáveis, adaptadas às suas necessidades específicas.

Pronto para elevar seus projetos de scraping? Mergulhe no Scrapy-Playwright e no CapSolver e desbloqueie novas possibilidades para coleta e automa??o de dados.

Declara??o de Conformidade: As informa??es fornecidas neste blog s?o apenas para fins informativos. A CapSolver está comprometida em cumprir todas as leis e regulamentos aplicáveis. O uso da rede CapSolver para atividades ilegais, fraudulentas ou abusivas é estritamente proibido e será investigado. Nossas solu??es de resolu??o de captcha melhoram a experiência do usuário enquanto garantem 100% de conformidade ao ajudar a resolver dificuldades de captcha durante a coleta de dados públicos. Incentivamos o uso responsável de nossos servi?os. Para mais informa??es, visite nossos Termos de Servi?o e Política de Privacidade.

Mais

Como resolver / resolver qualquer vers?o do reCAPTCHA Enterprise vers?o 2, vers?o 2 invisível, vers?o 3, vers?o 3 enterprise 0,9 score

Como resolver qualquer vers?o do reCAPTCHA Enterprise v2, v2 invisível, v3, v3 empresa 0,9 ponto

Domine a resolu??o de qualquer vers?o do reCaptcha com o CapSolver: Este guia oferece um tutorial passo a passo para resolver o reCaptcha de forma eficaz, garantindo resultados precisos a cada vez.

reCAPTCHA

Adélia Cruz

11-Oct-2025

Como resolver captchas de imagem

Este artigo de blog fornece um guia completo sobre como resolver captchas de imagem usando o CapSolver, uma ferramenta projetada para automatizar o processo. Ele come?a com uma explica??o do que é um captcha de imagem, seguido por um passo a passo detalhado sobre como usar a API do CapSolver para resolver esses captchas. O guia inclui exemplos das solicita??es e respostas envolvidas no processo. O artigo conclui com uma observa??o sobre a eficiência e a conveniência de usar o CapSolver para resolver captchas de imagem, tornando-o um recurso inestimável para aqueles que desejam automatizar tarefas que envolvem resolu??o de captchas.

Adélia Cruz

11-Oct-2025

Como resolver o reCaptcha vers?o 2 Invisível

Como resolver reCaptcha vers?o 2 Invisível

Este blog serve como um guia abrangente sobre como resolver reCaptcha v2 invisível usando Capsolver. Ele fornece um guia passo a passo, desde o envio das informa??es necessárias ao Capsolver até a verifica??o dos resultados. O blog foi projetado para ser fácil de entender e seguir, tornando o processo de implementar e resolver reCaptcha v2 invisível no seu site rápido e eficiente. ? um guia único e abrangente, garantindo que os leitores adquiram uma compreens?o completa do processo sem plágio.

reCAPTCHA

Adélia Cruz

11-Oct-2025

Resolver reCaptcha v2 Empresarial

No mundo digital, seguran?a e conveniência do usuário frequentemente se encontram nos extremos opostos do espectro. CAPTCHAs, especificamente o reCaptcha, têm sido fundamentais para encontrar um equilíbrio entre os dois. No entanto, e se você precisar resolver os testes de reCaptcha frequentemente complexos e demorados, especialmente o reCaptcha V2 Enterprise, por um propósito legítimo como testes automatizados? Neste blog, vamos te mostrar o processo de resolver o reCaptcha V2 Enterprise usando a API do CapSolver.

reCAPTCHA

Aloísio Vítor

11-Oct-2025

Resolver reCAPTCHA v3

Aprenda a resolver o reCaptcha V3 usando o CapSolver: diversos tipos de tarefas, integra??o simples da API e solu??es eficazes para automa??o e testes

reCAPTCHA

Aloísio Vítor

10-Oct-2025

Como encontrar a fun??o de callback do reCaptcha

Encontrar o callback de um reCAPTCHA envolve identificar a fun??o JavaScript que é executada depois que o reCAPTCHA é resolvido com sucesso. Segue uma breve vis?o geral das etapas que você pode seguir.

reCAPTCHA

Adélia Cruz

23-Sep-2025