Aumentar o limite faz a inadimplência subir? Um registro de verificação com três conjuntos de dados públicos

(han-co.com)

1 pontos por hanco1104 4 시간 전 | Ainda não há comentários. | Compartilhar no WhatsApp

Original: han-co.com · Código·notebooks (coreano·japonês): GitHub

Se aumentarmos o limite do cartão de crédito, a probabilidade de essa pessoa entrar em default sobe ou cai? Intuitivamente, parece que sobe. Afinal, ela pode pegar mais emprestado. Mas, quando abrimos os dados, acontece o oposto. Este texto registra como esse paradoxo é resolvido com debiasing, como foi verificado com três conjuntos de dados públicos e como, no final, chegamos a uma conclusão inesperada.

Na Parte 0, falamos sobre viés de seleção. Este texto é um caso prático em que esse viés de seleção encontra a inferência causal de frente. A inferência causal em si será tratada em profundidade separadamente na série básica, mas aqui mostramos antes como isso funciona na prática. Todo o código e todos os dados usados são públicos.

1. Dados que contradizem a intuição

Primeiro, começamos com dados de cartão de crédito de Taiwan. É um conjunto público com 30 mil clientes de cartão em Taiwan em 2005, contendo o limite de cada um, o valor faturado (saldo) e se houve atraso no mês seguinte (publicado pela UCI). Como é um raro conjunto público que reúne limite, saldo e default ao mesmo tempo, ele é um bom ponto de partida. Aqui, traçamos a taxa real de default por faixa de limite.

[IMG] Taxa de default por faixa de limite. Quanto maior o limite, menor a taxa de default

A taxa de default dos 10% com menor limite é 35,9%, e a dos 10% com maior limite é 11,9%. À medida que o limite sobe, a taxa de default cai de forma consistente (correlação −0,15).

O grupo que recebeu um limite quase 20 vezes maior gera apenas cerca de um terço do default. Isso significa que podemos simplesmente sair aumentando limites? Claro que não. Há uma armadilha aí.

2. O culpado é o viés de seleção

O limite não é dado aleatoriamente. Seguindo modelos ou regras existentes, limites mais altos são concedidos, desde o início, a pessoas com melhor crédito. Por isso, “ter limite alto” é também um sinal de “quem já pagaria bem de qualquer forma”. A relação negativa entre limite e default não é o efeito do limite em si, mas uma ilusão criada pela qualidade de crédito escondida por trás do limite. É o caso mais explícito de funcionamento do viés de seleção visto na Parte 0.

Se treinarmos o modelo com os dados brutos, ele aprende que “limite alto = seguro”. Se usarmos esse modelo para simular “e se aumentarmos o limite?”, ele responderá que o default diminui. É perigoso usar esse resultado diretamente em decisões de política.

3. A solução: transformar o limite em “resíduo”

A ideia central é simples. Se compararmos pessoas com a mesma qualidade de crédito, mas com limites diferentes, conseguimos enxergar o efeito puro do limite. Como um matching perfeito é impossível, fazemos o seguinte no lugar:

Prevemos o “limite esperado” de cada pessoa usando features de crédito (X), imitando a forma existente de concessão de limite.
O valor obtido ao subtrair o limite esperado do limite real é o resíduo do limite (rL). É a variação do limite que não é explicada pela qualidade de crédito, mas por política ou acaso.
Fazemos saldo e default virarem resíduos da mesma forma.
Montamos uma cadeia que vai do resíduo do limite ao resíduo do saldo, e daí ao default (caminho limite→saldo→default).
Como default é 0 e 1, ajustamos a diferença no espaço logit e somamos essa correção à probabilidade de default prevista inicialmente para obter o valor final.

Há dois cuidados. Primeiro, para evitar vazamento de dados, os resíduos precisam ser gerados obrigatoriamente com cross-fitting. Se o modelo “se vê” durante a predição, o resíduo fica artificialmente pequeno. Segundo, quanto mais consistente for a concessão de limite, mais raras se tornam as pessoas com resíduos grandes. Por isso, damos mais peso a essas amostras raras de “experimento natural” (pessoas com resíduo grande).

Essa estrutura é a mesma do Double Machine Learning (DML) em inferência causal. Em resumo, o DML prevê com machine learning o tratamento (aqui, o limite) e o resultado (default) a partir dos confundidores (qualidade de crédito), subtrai esses valores previstos e estima o efeito pela relação entre os resíduos remanescentes. O ponto-chave é separar por cross-fitting para que o machine learning absorva a confusão de forma flexível sem deixar o viés desse modelo contaminar a estimativa do efeito. No fim, trata-se de remover o confundidor “qualidade de crédito” do tratamento “limite”.

Antes de começar, vale antecipar uma limitação. As features de crédito que controlamos são apenas variáveis proxy dos critérios reais de concessão de limite (renda, score externo etc.). Por isso, o debiasing “reduz” o viés, mas não o “elimina completamente”. Quanto mais fracos forem os controles no conjunto de dados, maior a chance de o sinal negativo remanescente ainda misturar viés que não foi removido.

4. Verificação 1, cartão de crédito de Taiwan: o viés sumiu, mas o efeito quase sumiu junto

Quando aplicamos o debiasing, o paradoxo se desfez. Cerca de 70% da correlação aparente de −0,15 entre limite e default era viés de seleção, e o efeito direto restante após a remoção foi um pequeno negativo (−0,05). Isso vai na direção oposta da hipótese (“limite↑→default↑”).

Então, onde testar a hipótese? Na figura contrafactual, mudamos o limite de toda a base de 0,5x para 2x e desenhamos a taxa de default prevista.

[IMG] Contrafactual. Taxa de default prevista ao aumentar o limite

O vermelho (naive) reproduz o paradoxo de limite↑→default↓. A cadeia do saldo (azul) fica quase plana. As cadeias de utilização e direta (roxo, verde) mantêm um leve negativo.

Analisando em detalhe, vemos o seguinte:

Limite→saldo é positivo (+), mas a taxa de transmissão é fraca, 5,7%. Ou seja, mesmo aumentando o limite em 1, o saldo sobe só 0,057. Em empréstimos parcelados com saque integral, esse valor fica perto de 100%; comparado a isso, o limite revolving quase não é usado, então dificilmente se converte em carga financeira (é sticky).
O verdadeiro sinal de carga não era o saldo, mas a utilização (saldo/limite). E, quando o limite aumenta, a utilização cai bastante (−0,39, porque sobra folga).
Se isolarmos o saldo e estimarmos de forma linear e limpa, saldo→default é um positivo (+) significativo (p=0.001), então a hipótese se sustenta. Mas a magnitude é extremamente pequena.

Daqui sai uma lição metodológica. Se usarmos um GBM flexível na etapa residual, onde o sinal é fraco, ele sobreajusta. O AUC de treino sobe, mas o AUC de teste fica até pior que o modelo-base, e a diferença entre treino e teste chega a 0,047, seis vezes mais do que os 0,008 do modelo-base. Já uma segunda etapa linear usando apenas resíduos quase não tem diferença, 0,009, e recupera com mais limpeza o efeito real. Sinais causais fracos podem ser mais adequados para modelos lineares ou regularizados.

5. Uma armadilha: a janela de observação é curta demais

Nesse conjunto, default significa atraso “no mês seguinte”. Na prática, modelos de perda costumam olhar para 12 meses à frente. Em uma janela curta, há outro viés importante: adiamento (postponement). Quem tem folga no limite consegue aguentar mais um mês e empurrar o default para fora da janela observada. O default não caiu; só foi adiado, mas acaba registrado como “seguro”.

Esse é um viés diferente (sobrevivência, censura) que o debiasing, por si só, não captura. Verificamos isso ampliando a janela de observação de 1 para 5 meses.

[IMG] Efeito debiased do limite ao ampliar a janela de observação

Mesmo ampliando a janela, o negativo (−) não virou positivo (+) (de −0,06 em 1 mês para −0,13 em 5 meses). Mas, nesse experimento, quanto maior a janela, mais fraco fica o controle da qualidade de crédito, o que introduz confusão, e 5 meses ainda está longe de 12 meses. Em outras palavras, a conclusão é que a UCI (1 mês) não permite validar o problema de 12 meses.

Por isso, era necessário um conjunto com dados realmente de longo prazo.

6. Verificação 2, Lending Club: longo prazo e crédito “sacado”

O Lending Club é uma plataforma americana de empréstimos P2P. Aqui usamos 230 mil empréstimos emitidos entre 2007 e 2013 e já encerrados. Como o prazo já terminou, sabemos o desfecho final: quitação total ou charge-off. Rodando o mesmo debiasing, surgiu uma distinção decisiva.

[IMG] Lending Club. Crédito sacado e limite revolving

loan_amnt (crédito sacado, verde): mesmo após o debiasing, crédito↑→default↑ continua valendo de forma clara (p<0.0001). O aumento é consistente em várias faixas de risco, e a remoção do viés chega a reforçar o efeito. A hipótese se confirma.
total_rev_hi_lim (limite revolving não usado, roxo): mesmo no longo prazo, o efeito é quase 0. Igual ao limite da UCI.

A essência da diferença não era a janela de observação, mas “crédito sacado ou limite não usado”. Em empréstimos parcelados, o valor total é sacado e vira 100% de carga. Já o limite revolving, antes de ser usado, não é carga, e sim folga (headroom). A ponte entre os dois é a taxa de transmissão (limite→saldo), e na UCI ela era de apenas 5,7%; por isso o efeito do limite era fraco.

7. Verificação 3, cartão Home Credit: a definição de perda muda o sinal

Home Credit é um conjunto divulgado em uma competição do Kaggle, contendo dois tipos de dados: painel mensal de cartão de crédito e empréstimos solicitados (parcelados). Primeiro, tentou-se fechar a questão com o painel de cartão, isto é, dados de vários meses do mesmo produto revolving com limite real, saldo real e atraso. Mas o resultado virou de novo. Desta vez, foi um alerta.

Ao observar cerca de 16 mil cartões ativos realmente usados, apareceu o oposto da UCI: quanto maior a utilização, menor o default. Por quê?

[IMG] UCI e Home Credit. O sinal no caminho de utilização para default se inverte

Na UCI, à esquerda, quanto maior a utilização, maior a taxa de default (carga real). No Home Credit, à direita, quase todo o default, cerca de 14%, se concentra apenas no quantil de menor utilização (saldo quase 0), enquanto os demais quantis ficam em torno de 0,1%.

A causa era clara. No Home Credit, “default (SK_DPD≥90)