Ementa
O curso é destinado a pessoas interessadas em ganhar autonomia para elas mesmas coletarem e organizarem dados dos tribunais jurisdicionais e administrativos.
Os participantes irão percorrer as três fases de webscraping: requisição, extração, iteração, de modo obter dados dos tribunais, estruturá-los e deixá-los prontos para análise.
Programa
- Introdução
- Estado atual da jurimetria no Brasil.
- Considerações éticas sobre webscraping
- Webscraping
- Protocolos de trasmissão de dados pela internet
- Os diferentes formatos de arquivos
- Dissecando uma página web
- Dominando headers
- Requisição
- Os pacotes httr e httr2
- Requisição por APIs
- Parâmetros de requisição
- Parâmetros de resposta
- Requisição GET
- Requisição POST
- Tipos de arquivos
- Entendendo cookies
- Requisições ao TJSP
- Requisições ao STF
- Requisições aos TRTs
- Requisições ao TCU
- Requisições ao CARF
- Extração
- O pacote xml2
- HTML e XML
- Decifrando html
- Manipulação do DOM: Document Object Model
- Noções de CSS
- Noções de Javascript
- XPATH
- Regex
- Estruturação com tidyverse
- Extração em arquivos do TJSP
- Extração em arquivos do STF
- Extração em arquivos dos TRTs
- Extração em arquivos do TCU
- Extração em arquivos do CARF
- Iteração
- Criando funções de requisição
- Iterando com loops
- O pacote purrr
- Funções map
- Funções walk
- Controle de erros
- Lidando com exceções
- Ajustando entradas do usuário
- Iterando requisições
- Iterando extrações
- Paralelização com furrr