5.2 Valor da informação e peso de evidência
Em análise de respostas binárias, duas medidas muito utilizadas nas análises para concessão de crédito, mas quase desconhecidas nas demais áreas, são o peso da evidência e o valor da informação (WOE e IV nas siglas em inglês). Essas duas medidas são importantes na fase de exploração dos dados porque elas:
- Levam em conta a contribuição independente de cada variável para o resultado.
- Detetam relações lineares e não lineares com a veriável resposta
- Classificam as variáveis em termos de força preditiva “univariada”.
- Visualize as correlações entre as variáveis preditivas e o resultado binário.
- Comparam perfeitamente a força de variáveis contínuas e categóricas sem criar variáveis fictícias.
- Tratam perfeitamente de dados faltantes (missing) sem imputação.
- Avaliam o poder preditivo dos dados faltantes.
WOE e IV são conceitos relacionados e foram gestados na teoria da informação a fim de medir o grau de incerteza envolvido na predição de eventos, dados os diferentes graus de conhecimento sobre as variáveis envolvidas. Em poucas palavras WOE descreve a relação entre uma variável preditiva e a variável binária alvo, no caso a decisão judicial, Por sua vez IV mede a força dessa relação.
WOE describes the relationship between a predictive variable and a binary target variable.
A tabela a seguir mostra os resultados
• Variável – nome da variável
• Decisão - Variável resposta (decisão judicial)
• classe – classe da variável
• out0 – Número de procedentes
• out1 – Número de improcedentes
• Total – Total de respostas para cada categoria
• pe_1 – procedentes / total de procedentes (em percentual)
• pe_0 – improcedentes / total de improcedentes (em percentual)
• odds – pe_1/pe_0
• woe – Peso da evidência (Weight of Evidence), calculado com o logarítimo natural de odds.
• iv – Valor da informação (Information Value) - woe * (pe_0 – pe_1)
Para facilitar a interpretação dos resultados, tome-se em consideração os seguintes critérios:
Se o IV é menor que 0.03 então o poder preditivo é = “Não preditivo”
Se o IV está de 0.3 para 0.1 então o poder preditivo é = “Moderadamente preditivo”
Se o IV está de 0.1 para 0.3 então o poder preditivo é = “Medianamente preditivo”
Se o IV é maior que > 0.3 então o poder preditivo é = “Altamente preditivo”
(
stat<-ExpCatStat(rcl_dataset,Target="decisao",Label="Decisões",result = "Stat",clim=15,Pclass="procedente")
)