Landing page script-doesp

📰 DOE-SP Scraper and PDF Generator

Este projeto é um web scraper para extrair informações relevantes do Diário Oficial do Estado de São Paulo (DOE-SP), gerar um relatório em PDF com o conteúdo extraído e enviar o relatório por e-mail. Ele automatiza o processo de monitoramento e arquivamento de conteúdos importantes do DOE-SP.

Recursos

  • 🔍 Web Scraping: Navega automaticamente no site do DOE-SP e extrai conteúdo com base em seções e palavras-chave pré-definidas.
  • 🖨️ Geração de PDF: Cria um relatório PDF bem estruturado com os dados extraídos.
  • 📧 Integração com E-mail: Envia o PDF gerado para um destinatário especificado via SMTP.
  • ⚙️ Tratamento de Erros: Robusto tratamento de exceções para scraping, geração de arquivos e envio de e-mails.
  • 🔒 Configuração por Ambiente: Usa variáveis de ambiente para credenciais e parâmetros do scraping.
  • 🐳 Suporte a Docker: Execução em ambiente containerizado para fácil deploy.

🚀Tecnologias Utilizadas

  • Python 🐍: Linguagem principal do projeto.
  • Selenium 🌐: Automação de navegação e scraping.
  • ReportLab 🖨️: Geração de relatórios em PDF.
  • smtplib ✉️: Envio de e-mails via SMTP.
  • dotenv 🔒: Gerenciamento de variáveis de ambiente.
  • ZoneInfo 🌍: Gerenciamento de fuso horário.
  • Docker 🐳: Containerização para deploy.

🔑Variáveis de Ambiente

Configure as seguintes variáveis em um arquivo .env:

VariávelDescriçãoExemplo
EMAILEndereço de e-mail do remetenteyour-email@gmail.com
PASSWORDSenha do e-mail do remetenteyour-email-password
DESTINATARIOEndereço de e-mail do destinatáriorecipient-email@gmail.com
DATAPalavras-chave para filtrar conteúdokeyword1,keyword2,keyword3

📦Instalação

  1. Clone o repositório:
    git clone https://github.com/caioxsf/script-doesp.git
    cd script-doesp
  2. Construa o container:
    docker compose build
  3. Rode o container:
    docker compose run