Ementa

Ementa

O curso é destinado a pessoas interessadas em ganhar autonomia para elas mesmas coletarem e organizarem dados dos tribunais jurisdicionais e administrativos. Os participantes irão percorrer as três fases de webscraping: requisição, extração, iteração, de modo obter dados dos tribunais, estruturá-los e deixá-los prontos para análise.

Programa

Introdução

Estado atual da jurimetria no Brasil.
Considerações éticas sobre webscraping

Webscraping

Protocolos de trasmissão de dados pela internet
Os diferentes formatos de arquivos
Dissecando uma página web
Dominando headers

Requisição

Os pacotes httr e httr2
Requisição por APIs
Parâmetros de requisição
Parâmetros de resposta
Requisição GET
Requisição POST
Tipos de arquivos
Entendendo cookies
Requisições ao TJSP
Requisições ao STF
Requisições aos TRTs
Requisições ao TCU
Requisições ao CARF

Extração

O pacote xml2
HTML e XML
Decifrando html
Manipulação do DOM: Document Object Model
Noções de CSS
Noções de Javascript
XPATH
Regex
Estruturação com tidyverse
Extração em arquivos do TJSP
Extração em arquivos do STF
Extração em arquivos dos TRTs
Extração em arquivos do TCU
Extração em arquivos do CARF

Iteração

Criando funções de requisição
Iterando com loops
O pacote purrr
Funções map
Funções walk
Controle de erros
Lidando com exceções
Ajustando entradas do usuário
Iterando requisições
Iterando extrações
Paralelização com furrr