A Associação Brasileira de Jornalismo Investigativo (Abraji) vai lançar no começo de 2020 a fase 2 do Publique-se (
http://publique-se.org.br). O banco de dados para pesquisas de processos judiciais nos quais políticos brasileiros aparecem como partes vai passar a incluir tribunais de todos os Estados brasileiros, incluindo os de primeira instância. Com base nessa experiência, será oferecido um workshop introdutório sobre a raspagem de dados no Judiciário brasileiro, com o uso de Python 3.
Vamos mostrar as limitações e possibilidades para automatizar pesquisas em tribunais e a coleta de informações processuais. Iremos também usar bibliotecas e módulos como requests, beautifulsoup, soupsieve e selenium webdriver para acessar a busca processual nos tribunais e a posterior geração de CSV com os resultados estruturados.
Pré-requisitosConhecimento básico de Python
Softwares* Python 3, com as bibliotecas requests, beautifulsoup, soupsieve, pandas, unidecode e urllib3 e Selenium webdrive
*
Chromedriver* Jupyterlab