Este livro está em Revisão aberta. Suas impressões são importantes para torná-lo melhor para você e para outros estudantes. Você pode anotar alguns textos selecionando-os com o cursor e clicando no menu popup. Você também pode ler anotações de outras pessoas: Clique no canto superior direito da página

5.2 Valor da informação e peso de evidência

Em análise de respostas binárias, duas medidas muito utilizadas nas análises para concessão de crédito, mas quase desconhecidas nas demais áreas, são o peso da evidência e o valor da informação (WOE e IV nas siglas em inglês). Essas duas medidas são importantes na fase de exploração dos dados porque elas:

  1. Levam em conta a contribuição independente de cada variável para o resultado.
  2. Detetam relações lineares e não lineares com a veriável resposta
  3. Classificam as variáveis em termos de força preditiva “univariada”.
  4. Visualize as correlações entre as variáveis preditivas e o resultado binário.
  5. Comparam perfeitamente a força de variáveis contínuas e categóricas sem criar variáveis fictícias.
  6. Tratam perfeitamente de dados faltantes (missing) sem imputação.
  7. Avaliam o poder preditivo dos dados faltantes.

WOE e IV são conceitos relacionados e foram gestados na teoria da informação a fim de medir o grau de incerteza envolvido na predição de eventos, dados os diferentes graus de conhecimento sobre as variáveis envolvidas. Em poucas palavras WOE descreve a relação entre uma variável preditiva e a variável binária alvo, no caso a decisão judicial, Por sua vez IV mede a força dessa relação.

WOE describes the relationship between a predictive variable and a binary target variable.

A tabela a seguir mostra os resultados

• Variável – nome da variável

• Decisão - Variável resposta (decisão judicial)

• classe – classe da variável

• out0 – Número de procedentes

• out1 – Número de improcedentes

• Total – Total de respostas para cada categoria

• pe_1 – procedentes / total de procedentes (em percentual)

• pe_0 – improcedentes / total de improcedentes (em percentual)

• odds – pe_1/pe_0

• woe – Peso da evidência (Weight of Evidence), calculado com o logarítimo natural de odds.

• iv – Valor da informação (Information Value) - woe * (pe_0 – pe_1)

Para facilitar a interpretação dos resultados, tome-se em consideração os seguintes critérios:

Se o IV é menor que 0.03 então o poder preditivo é = “Não preditivo”

Se o IV está de 0.3 para 0.1 então o poder preditivo é = “Moderadamente preditivo”

Se o IV está de 0.1 para 0.3 então o poder preditivo é = “Medianamente preditivo”

Se o IV é maior que > 0.3 então o poder preditivo é = “Altamente preditivo”

(
stat<-ExpCatStat(rcl_dataset,Target="decisao",Label="Decisões",result = "Stat",clim=15,Pclass="procedente")
)