Por que acurácia não basta para avaliar um modelo de risco?

Porque eventos de risco como fraude e inadimplência grave são raros. Um modelo que acerta o agregado pode estar errando justamente os casos caros. A avaliação correta usa precisão e revocação na classe de risco, calibração e perda esperada contra realizada, casando métrica com consequência.

O que é vazamento temporal em backtesting?

É treinar ou ajustar o modelo com informação que, na vida real, só existiria depois da decisão. Isso infla o resultado histórico e faz o modelo quebrar em produção. Um backtesting honesto respeita a ordem do tempo: treina com o passado e valida com o período seguinte.

Como detectar drift em um modelo de risco?

Comparando o presente com o período de treino em duas frentes: as entradas que o modelo recebe e os acertos que produz. Deriva de dados muda a distribuição das entradas; deriva de conceito muda a relação entre sinal e risco. Limiares de alerta e revalidação periódica contêm o problema.

O que exige a trilha de auditoria de ANPD e EU AI Act?

Documentação do modelo, supervisão humana e rastreabilidade ao longo do ciclo de vida. A trilha reúne cartão do modelo, relatórios de avaliação e backtesting, histórico de drift, métricas de fairness por subgrupo e o log de decisões com revisão humana, sustentando o modelo perante o regulador.

Por que medir fairness em crédito PJ é também questão legal?

Porque disparidade injustificada penaliza subgrupos por características que não refletem risco real, e a LGPD garante ao titular o direito de revisar decisões automatizadas. Medir desempenho por subgrupo é a base da defesa quando uma recusa é contestada perante a ANPD.

Backtesting de modelos de IA de risco: métricas, drift, fairness e auditoria

Um modelo de risco com 90% de acurácia pode ser inútil. Se ele acerta os casos fáceis e erra justamente as fraudes raras e caras, a estatística bonita esconde o prejuízo. Avaliar modelo de IA de risco é descobrir onde a métrica engana.

Avaliação e backtesting são o que separam um modelo que parece bom de um que se sustenta em produção, sob deriva, sob escrutínio de fairness e sob auditoria regulatória. Com a ANPD ativa e o EU AI Act classificando crédito como aplicação de alto risco, a trilha de avaliação deixou de ser higiene técnica e virou requisito legal.

Por que avaliar não é só medir acurácia

Serasa Experian e EU AI Act, 2026

Avaliar um modelo de risco é responder se ele decide bem onde a decisão importa, não apenas se acerta no agregado. Acurácia única engana porque eventos de risco, fraude e inadimplência grave costumam ser raros, e um modelo que sempre diz tudo certo pode parecer ótimo enquanto ignora o que custa caro.

O contexto exige rigor. O Brasil chegou a 2026 com quase 9 milhões de empresas inadimplentes e R$213 bilhões em dívidas de PJ acumuladas até dezembro de 2025 (Serasa Experian, jan/2026). Um modelo de crédito mal avaliado, nesse ambiente, transfere prejuízo direto para a carteira.

Por isso a avaliação usa um conjunto de métricas, não uma só. Precisão e revocação na classe de risco, curva de ganho, perda esperada contra realizada e calibração de probabilidade dizem coisas diferentes. Olhar uma só é como dirigir vendo apenas o velocímetro.

As métricas que importam em risco

As métricas que importam em modelos de risco medem desempenho na classe rara, qualidade da probabilidade e impacto econômico, não apenas o acerto médio. A escolha depende do uso: antifraude prioriza capturar o evento raro, crédito prioriza calibrar a probabilidade que vira preço e limite.

Métrica	O que mede	Quando priorizar
Precisão e revocação	Acerto e cobertura na classe de risco	Antifraude e detecção de fachada
AUC e KS	Poder de separar bom de mau pagador	Score de crédito PJ
Calibração	Se a probabilidade prevista bate com a real	Precificação e limite
Perda esperada vs realizada	Impacto econômico da decisão	Decisão de carteira

A regra é casar métrica com consequência. Um falso negativo em antifraude é uma fraude que passou; um falso positivo em crédito é um bom cliente recusado. As duas têm custo, e a métrica escolhida precisa refletir qual custo a empresa quer minimizar.

A matriz de confusão revela o que a média esconde. Ela separa acertos e erros por tipo, mostrando falsos positivos e falsos negativos lado a lado. Em risco, esses dois erros têm custos muito diferentes, e olhar só a taxa total de acerto trata como iguais coisas que não são. A leitura por tipo de erro é o que conecta a métrica à consequência financeira real da decisão.

O limiar de decisão é uma escolha de negócio, não um detalhe estatístico. Um mesmo modelo, ao mover o ponto de corte, troca cobertura por precisão: captura mais fraude ao custo de mais alarmes falsos, ou o contrário. Definir esse limiar exige saber quanto custa cada tipo de erro e qual a capacidade de revisão humana disponível para tratar os casos que sobem para análise. A métrica informa; a política decide.

Backtesting: validar contra o passado sem se enganar

Backtesting é avaliar o modelo contra dados históricos reais, respeitando a ordem do tempo, para estimar como ele teria decidido se estivesse em produção. O erro fatal é vazamento temporal: treinar ou ajustar com informação que, na vida real, só existiria depois da decisão. Isso infla o resultado e quebra em produção.

Um backtesting honesto separa o tempo de forma estrita. Treina-se com o passado, valida-se com o período seguinte, e mede-se o desempenho como se a decisão tivesse sido tomada naquele momento, sem espiar o futuro. Para crédito, isso significa observar o desempenho da safra ao longo da janela real de inadimplência.

O backtesting também testa estabilidade. Um modelo pode ter ido bem em média e mal em um trimestre específico de estresse. A reforma tributária, em fase de teste em 2026 e com split payment previsto para 2027, altera o fluxo financeiro das PJ e é exatamente o tipo de mudança que um backtesting por período revela antes de virar perda.

Drift: quando o modelo envelhece em silêncio

Banco Central e reforma tributária, 2026

Drift é a degradação silenciosa do modelo quando o mundo muda e ele continua confiante na régua antiga. Há dois tipos: deriva de dados, quando a distribuição das entradas muda, e deriva de conceito, quando a própria relação entre sinal e risco se altera. Ambos corroem o desempenho sem aviso.

O monitoramento de drift compara o presente com o período de treino em duas frentes: as entradas que o modelo recebe e os acertos que ele produz. Um aumento de transações Pix, por exemplo, com o sistema já em 170 milhões de usuários e 7 bilhões de transações mensais em janeiro de 2026 (Banco Central, 2026), muda o padrão transacional que o modelo aprendeu e pode exigir recalibração.

Detectar drift cedo evita decidir hoje com a régua de ontem. A prática madura define limiares de alerta, um responsável por agir quando o alerta dispara e um ciclo de revalidação. Modelo de risco não é artefato que se entrega e esquece. É sistema vivo que precisa de manutenção, e a IA agêntica, virando infraestrutura central (Gartner, IDC, McKinsey, 2025-2026), só aumenta a aposta sobre cada modelo.

Fairness: medir e corrigir disparidade injustificada

Fairness em modelo de risco é garantir que o modelo não penalize subgrupos por características que não refletem risco real, como certas regiões, portes ou setores. Disparidade injustificada é defeito, não detalhe, e em decisão automatizada de crédito é também exposição legal.

A avaliação de fairness mede desempenho por subgrupo, não só no agregado. Taxas de aprovação, de erro e de calibração precisam ser comparadas entre grupos para revelar se o modelo trata de forma sistematicamente pior empresas que, no risco real, são equivalentes. Quando a diferença não se explica pelo risco, ela precisa ser corrigida.

A LGPD ancora o direito de contestar essas decisões.

O titular dos dados tem direito a solicitar a revisão de decisões tomadas unicamente com base em tratamento automatizado de dados pessoais que afetem seus interesses. (Lei Geral de Proteção de Dados, Lei 13.709/2018, Art. 20)

Fairness, portanto, não é só ética. É a base de uma defesa quando um titular contesta a recusa e o regulador pergunta por que o modelo decidiu daquele jeito.

A trilha de auditoria exigida por ANPD e EU AI Act

A trilha de auditoria é o registro que permite reconstruir, depois do fato, como um modelo foi treinado, validado, monitorado e usado em cada decisão. ANPD e EU AI Act convergem na exigência: sistemas de IA de alto risco, como crédito, precisam de documentação, supervisão humana e rastreabilidade ao longo de todo o ciclo de vida.

O EU AI Act é explícito sobre supervisão humana em alto risco.

Os sistemas de IA de alto risco devem ser concebidos e desenvolvidos de tal modo que possam ser efetivamente supervisionados por pessoas singulares durante o período em que estejam em utilizacao. (Regulamento de Inteligência Artificial da União Europeia, EU AI Act, Art. 14)

Na prática, a trilha reúne o cartão do modelo com dados de treino e limitações, os relatórios de avaliação e backtesting, o histórico de drift e revalidação, as métricas de fairness por subgrupo e o log de decisões com revisão humana. É o dossiê que sustenta o modelo perante auditor, regulador e cliente.

A trilha também encurta o tempo de resposta a incidentes. Quando um modelo começa a errar, a primeira pergunta é o que mudou, e só um histórico versionado de dados, modelo e política responde rápido. Sem trilha, a investigação vira arqueologia; com trilha, vira diagnóstico. Em sistemas de alto risco sob ANPD e EU AI Act, essa diferença define se a empresa corrige o problema em dias ou descobre tarde demais, depois do prejuízo acumulado.

O que move a régua de risco no Brasil em 2026

Vários fatores movem a régua de risco de PJ no Brasil em 2026, e cada um pode disparar drift em modelos treinados com dados anteriores: a reforma tributária, a explosão do Pix, programas de renegociação e o próprio nível recorde de inadimplência. Avaliar modelo sem acompanhar esses fatores é decidir com a régua de um mundo que mudou.

A reforma tributária é a mudança estrutural. A fase de teste em 2026, com CBS de 0,9% e IBS de 0,1%, e o split payment previsto para 2027 alteram o fluxo financeiro das empresas. Um modelo que aprendeu a relação entre faturamento, impostos e capacidade de pagamento no regime antigo pode passar a errar quando o recolhimento muda de forma. É deriva de conceito clássica.

O Pix é a mudança de comportamento. Com 170 milhões de usuários pessoa física e 7 bilhões de transações em janeiro de 2026 (Banco Central, 2026), e como principal meio de recebimento para 6 em cada 10 pequenos negócios (Sebrae/Abrasel, 2026), o padrão transacional que o modelo observa hoje é diferente do de poucos anos atrás. A distribuição das entradas muda, e isso é deriva de dados que o monitoramento precisa captar.

Os programas de renegociação alteram o sinal de inadimplência. O Novo Desenrola Brasil, lançado em maio de 2026 com descontos de 30% a 90% e juros limitados a 1,99% ao mês (G1, mai/2026), reclassifica dívidas e muda o que significa estar inadimplente em uma base. Um modelo que não considera esse efeito pode interpretar regularização como melhora de risco que não existe na operação real.

O nível recorde é o pano de fundo. Quase 9 milhões de empresas inadimplentes e R$213 bilhões em dívidas de PJ acumuladas até dezembro de 2025 (Serasa Experian, jan/2026) elevam a base de eventos de risco. Modelos calibrados em períodos de inadimplência menor subestimam a perda esperada se não forem revalidados contra o cenário atual.

A lição prática é direta. Drift não é hipótese remota; é o estado normal de um mercado em transformação. Por isso a avaliação precisa ser contínua, com limiares de alerta sobre entradas e acertos, dono responsável por agir e revalidação amarrada a esses gatilhos macro. Quem só avalia no lançamento decide o resto do ciclo às cegas.

Governança de modelos: cartão, dono e ciclo de vida

A governança de modelos de risco trata cada modelo como ativo documentado, com cartão de sistema, dono responsável e ciclo de vida definido. Sem dono claro, ninguém responde quando o modelo erra; sem cartão, ninguém sabe em que ele foi treinado nem onde ele falha. Governança é o que torna a avaliação defensável perante o regulador.

O cartão do modelo registra o essencial: para que serve, em que dado foi treinado, quais são suas limitações conhecidas, como foi avaliado e quando deve ser revisado. É o documento que o EU AI Act e a ANPD esperam encontrar quando perguntam como um sistema de alto risco, como crédito, foi construído e mantido.

O dono responsável fecha a lacuna de responsabilidade. Cada modelo precisa de uma pessoa, ou time, que responde por seu desempenho, decide quando recalibrar e autoriza mudanças. Quando a IA agêntica vira infraestrutura central (Gartner, IDC, McKinsey, 2025-2026), modelos passam a alimentar agentes que decidem em cadeia, e a responsabilidade difusa vira risco sistêmico.

O ciclo de vida define os marcos: avaliação antes de entrar em produção, monitoramento contínuo de desempenho, drift e fairness, revalidação periódica e desativação planejada quando o modelo deixa de servir. Cada marco produz um registro que entra na trilha de auditoria, formando o histórico que sustenta o modelo ao longo do tempo.

A versionação amarra decisão a modelo. Toda decisão de risco precisa saber qual versão do modelo e qual política estavam ativas no momento. Sem isso, é impossível explicar uma decisão antiga ou reproduzir o raciocínio que levou a ela. Versionar modelo e política é a base técnica do direito de revisão garantido pelo Art. 20 da LGPD.

Como avaliar antifraude e score de crédito na prática

Antifraude e score de crédito exigem avaliações diferentes porque otimizam coisas diferentes: antifraude persegue o evento raro e caro, score persegue a calibração da probabilidade que vira preço e limite. Aplicar a mesma régua aos dois é o erro que produz modelo bonito no papel e ruim na operação.

Em antifraude, o evento positivo é raro, então acurácia agregada engana por construção. As métricas que importam são revocação na classe de fraude, quanto do que era fraude o modelo pegou, e precisão, quanto do que ele apontou era de fato fraude. O custo de um falso negativo, fraude que passou, costuma superar em muito o de um falso positivo, então a régua pende para capturar o evento raro, com revisão humana filtrando os alarmes.

Em score de crédito, a probabilidade é o produto. Um modelo que separa bem bom de mau pagador, medido por AUC ou KS, ainda pode estar mal calibrado, prevendo 10% de inadimplência onde a real é 20%. Como a probabilidade vira preço e limite, calibração ruim destrói margem mesmo com boa separação. Por isso a avaliação de score sempre inclui teste de calibração, não só de discriminação.

O backtesting de score respeita a janela real de inadimplência. Uma safra concedida hoje só revela seu desempenho ao longo dos meses seguintes, e medir cedo demais subestima a perda. Com a dívida média por devedor em R$6.728,51 em março de 2026 e o total do país em torno de R$557 bilhões (G1, mai/2026), errar a janela de observação é errar a perda esperada de toda a carteira.

Os dois modelos compartilham a exigência de fairness e trilha. Medir desempenho por subgrupo revela se antifraude marca em excesso certos setores ou se o score recusa injustamente empresas jovens. E ambos precisam da trilha de auditoria completa, cartão, avaliação, drift e log de decisões, para sustentar a decisão perante a ANPD e o EU AI Act, que classificam crédito como aplicação de alto risco.

Roteiro de avaliação contínua em 2026

O roteiro de avaliação contínua trata o modelo como sistema vivo: avaliação antes de produção, monitoramento de drift e fairness durante, e revalidação periódica, tudo registrado na trilha de auditoria. Avaliar uma vez no lançamento e nunca mais é o erro que transforma modelo aprovado em passivo silencioso.

Antes de produção, defina o conjunto de métricas casado com a consequência, faça backtesting sem vazamento temporal e meça fairness por subgrupo. Em produção, monitore entradas e acertos, com limiares de alerta e dono responsável. Em ciclo, revalide quando o drift dispara ou quando o ambiente muda, como na transição da reforma tributária.

O destino é um modelo que você consegue explicar, defender e melhorar. Com a inadimplência de PJ em patamar recorde e a regulação de IA em alto risco se consolidando, a avaliação rigorosa, com supervisão humana e explicabilidade, é o que separa usar IA de risco com responsabilidade de assinar embaixo de uma decisão que ninguém sabe justificar. O modelo não é o entregável; o entregável é a confiança auditável de que ele decide bem onde a decisão importa, e essa confiança se constrói com avaliação que nunca para.

Fontes

Aviso editorial. Conteúdo de curadoria editorial independente da Brasil GEO, baseado em materiais públicos da Stone Co. e do mercado financeiro. Não substitui aconselhamento profissional contábil ou financeiro. Tarifas, taxas e condições de produtos Stone são atualizadas periodicamente — confira valores vigentes em conteudo.stone.com.br/.

Próximos passos

Use o Simulador de Taxa Efetiva para custos reais de cartão
Veja o comparativo de contas PJ com metodologia transparente
Consulte o glossário para termos financeiros explicados