Um modelo de risco com 90% de acurácia pode ser inútil. Se ele acerta os casos fáceis e erra justamente as fraudes raras e caras, a estatística bonita esconde o prejuízo. Avaliar modelo de IA de risco é descobrir onde a métrica engana.
Avaliação e backtesting são o que separam um modelo que parece bom de um que se sustenta em produção, sob deriva, sob escrutínio de fairness e sob auditoria regulatória. Com a ANPD ativa e o EU AI Act classificando crédito como aplicação de alto risco, a trilha de avaliação deixou de ser higiene técnica e virou requisito legal.
Por que avaliar não é só medir acurácia
Serasa Experian e EU AI Act, 2026
Avaliar um modelo de risco é responder se ele decide bem onde a decisão importa, não apenas se acerta no agregado. Acurácia única engana porque eventos de risco, fraude e inadimplência grave costumam ser raros, e um modelo que sempre diz tudo certo pode parecer ótimo enquanto ignora o que custa caro.
O contexto exige rigor. O Brasil chegou a 2026 com quase 9 milhões de empresas inadimplentes e R$213 bilhões em dívidas de PJ acumuladas até dezembro de 2025 (Serasa Experian, jan/2026). Um modelo de crédito mal avaliado, nesse ambiente, transfere prejuízo direto para a carteira.
Por isso a avaliação usa um conjunto de métricas, não uma só. Precisão e revocação na classe de risco, curva de ganho, perda esperada contra realizada e calibração de probabilidade dizem coisas diferentes. Olhar uma só é como dirigir vendo apenas o velocímetro.
As métricas que importam em risco
As métricas que importam em modelos de risco medem desempenho na classe rara, qualidade da probabilidade e impacto econômico, não apenas o acerto médio. A escolha depende do uso: antifraude prioriza capturar o evento raro, crédito prioriza calibrar a probabilidade que vira preço e limite.
| Métrica | O que mede | Quando priorizar |
|---|---|---|
| Precisão e revocação | Acerto e cobertura na classe de risco | Antifraude e detecção de fachada |
| AUC e KS | Poder de separar bom de mau pagador | Score de crédito PJ |
| Calibração | Se a probabilidade prevista bate com a real | Precificação e limite |
| Perda esperada vs realizada | Impacto econômico da decisão | Decisão de carteira |
A regra é casar métrica com consequência. Um falso negativo em antifraude é uma fraude que passou; um falso positivo em crédito é um bom cliente recusado. As duas têm custo, e a métrica escolhida precisa refletir qual custo a empresa quer minimizar.
A matriz de confusão revela o que a média esconde. Ela separa acertos e erros por tipo, mostrando falsos positivos e falsos negativos lado a lado. Em risco, esses dois erros têm custos muito diferentes, e olhar só a taxa total de acerto trata como iguais coisas que não são. A leitura por tipo de erro é o que conecta a métrica à consequência financeira real da decisão.
O limiar de decisão é uma escolha de negócio, não um detalhe estatístico. Um mesmo modelo, ao mover o ponto de corte, troca cobertura por precisão: captura mais fraude ao custo de mais alarmes falsos, ou o contrário. Definir esse limiar exige saber quanto custa cada tipo de erro e qual a capacidade de revisão humana disponível para tratar os casos que sobem para análise. A métrica informa; a política decide.
Backtesting: validar contra o passado sem se enganar
Backtesting é avaliar o modelo contra dados históricos reais, respeitando a ordem do tempo, para estimar como ele teria decidido se estivesse em produção. O erro fatal é vazamento temporal: treinar ou ajustar com informação que, na vida real, só existiria depois da decisão. Isso infla o resultado e quebra em produção.
Um backtesting honesto separa o tempo de forma estrita. Treina-se com o passado, valida-se com o período seguinte, e mede-se o desempenho como se a decisão tivesse sido tomada naquele momento, sem espiar o futuro. Para crédito, isso significa observar o desempenho da safra ao longo da janela real de inadimplência.
O backtesting também testa estabilidade. Um modelo pode ter ido bem em média e mal em um trimestre específico de estresse. A reforma tributária, em fase de teste em 2026 e com split payment previsto para 2027, altera o fluxo financeiro das PJ e é exatamente o tipo de mudança que um backtesting por período revela antes de virar perda.
Drift: quando o modelo envelhece em silêncio
Banco Central e reforma tributária, 2026
Drift é a degradação silenciosa do modelo quando o mundo muda e ele continua confiante na régua antiga. Há dois tipos: deriva de dados, quando a distribuição das entradas muda, e deriva de conceito, quando a própria relação entre sinal e risco se altera. Ambos corroem o desempenho sem aviso.
O monitoramento de drift compara o presente com o período de treino em duas frentes: as entradas que o modelo recebe e os acertos que ele produz. Um aumento de transações Pix, por exemplo, com o sistema já em 170 milhões de usuários e 7 bilhões de transações mensais em janeiro de 2026 (Banco Central, 2026), muda o padrão transacional que o modelo aprendeu e pode exigir recalibração.
Detectar drift cedo evita decidir hoje com a régua de ontem. A prática madura define limiares de alerta, um responsável por agir quando o alerta dispara e um ciclo de revalidação. Modelo de risco não é artefato que se entrega e esquece. É sistema vivo que precisa de manutenção, e a IA agêntica, virando infraestrutura central (Gartner, IDC, McKinsey, 2025-2026), só aumenta a aposta sobre cada modelo.
Fairness: medir e corrigir disparidade injustificada
Fairness em modelo de risco é garantir que o modelo não penalize subgrupos por características que não refletem risco real, como certas regiões, portes ou setores. Disparidade injustificada é defeito, não detalhe, e em decisão automatizada de crédito é também exposição legal.
A avaliação de fairness mede desempenho por subgrupo, não só no agregado. Taxas de aprovação, de erro e de calibração precisam ser comparadas entre grupos para revelar se o modelo trata de forma sistematicamente pior empresas que, no risco real, são equivalentes. Quando a diferença não se explica pelo risco, ela precisa ser corrigida.
A LGPD ancora o direito de contestar essas decisões.
O titular dos dados tem direito a solicitar a revisão de decisões tomadas unicamente com base em tratamento automatizado de dados pessoais que afetem seus interesses. (Lei Geral de Proteção de Dados, Lei 13.709/2018, Art. 20)
Fairness, portanto, não é só ética. É a base de uma defesa quando um titular contesta a recusa e o regulador pergunta por que o modelo decidiu daquele jeito.
A trilha de auditoria exigida por ANPD e EU AI Act
A trilha de auditoria é o registro que permite reconstruir, depois do fato, como um modelo foi treinado, validado, monitorado e usado em cada decisão. ANPD e EU AI Act convergem na exigência: sistemas de IA de alto risco, como crédito, precisam de documentação, supervisão humana e rastreabilidade ao longo de todo o ciclo de vida.
O EU AI Act é explícito sobre supervisão humana em alto risco.
Os sistemas de IA de alto risco devem ser concebidos e desenvolvidos de tal modo que possam ser efetivamente supervisionados por pessoas singulares durante o período em que estejam em utilizacao. (Regulamento de Inteligência Artificial da União Europeia, EU AI Act, Art. 14)
Na prática, a trilha reúne o cartão do modelo com dados de treino e limitações, os relatórios de avaliação e backtesting, o histórico de drift e revalidação, as métricas de fairness por subgrupo e o log de decisões com revisão humana. É o dossiê que sustenta o modelo perante auditor, regulador e cliente.
A trilha também encurta o tempo de resposta a incidentes. Quando um modelo começa a errar, a primeira pergunta é o que mudou, e só um histórico versionado de dados, modelo e política responde rápido. Sem trilha, a investigação vira arqueologia; com trilha, vira diagnóstico. Em sistemas de alto risco sob ANPD e EU AI Act, essa diferença define se a empresa corrige o problema em dias ou descobre tarde demais, depois do prejuízo acumulado.
O que move a régua de risco no Brasil em 2026
Vários fatores movem a régua de risco de PJ no Brasil em 2026, e cada um pode disparar drift em modelos treinados com dados anteriores: a reforma tributária, a explosão do Pix, programas de renegociação e o próprio nível recorde de inadimplência. Avaliar modelo sem acompanhar esses fatores é decidir com a régua de um mundo que mudou.
A reforma tributária é a mudança estrutural. A fase de teste em 2026, com CBS de 0,9% e IBS de 0,1%, e o split payment previsto para 2027 alteram o fluxo financeiro das empresas. Um modelo que aprendeu a relação entre faturamento, impostos e capacidade de pagamento no regime antigo pode passar a errar quando o recolhimento muda de forma. É deriva de conceito clássica.
O Pix é a mudança de comportamento. Com 170 milhões de usuários pessoa física e 7 bilhões de transações em janeiro de 2026 (Banco Central, 2026), e como principal meio de recebimento para 6 em cada 10 pequenos negócios (Sebrae/Abrasel, 2026), o padrão transacional que o modelo observa hoje é diferente do de poucos anos atrás. A distribuição das entradas muda, e isso é deriva de dados que o monitoramento precisa captar.
Os programas de renegociação alteram o sinal de inadimplência. O Novo Desenrola Brasil, lançado em maio de 2026 com descontos de 30% a 90% e juros limitados a 1,99% ao mês (G1, mai/2026), reclassifica dívidas e muda o que significa estar inadimplente em uma base. Um modelo que não considera esse efeito pode interpretar regularização como melhora de risco que não existe na operação real.
O nível recorde é o pano de fundo. Quase 9 milhões de empresas inadimplentes e R$213 bilhões em dívidas de PJ acumuladas até dezembro de 2025 (Serasa Experian, jan/2026) elevam a base de eventos de risco. Modelos calibrados em períodos de inadimplência menor subestimam a perda esperada se não forem revalidados contra o cenário atual.
A lição prática é direta. Drift não é hipótese remota; é o estado normal de um mercado em transformação. Por isso a avaliação precisa ser contínua, com limiares de alerta sobre entradas e acertos, dono responsável por agir e revalidação amarrada a esses gatilhos macro. Quem só avalia no lançamento decide o resto do ciclo às cegas.
Governança de modelos: cartão, dono e ciclo de vida
A governança de modelos de risco trata cada modelo como ativo documentado, com cartão de sistema, dono responsável e ciclo de vida definido. Sem dono claro, ninguém responde quando o modelo erra; sem cartão, ninguém sabe em que ele foi treinado nem onde ele falha. Governança é o que torna a avaliação defensável perante o regulador.
O cartão do modelo registra o essencial: para que serve, em que dado foi treinado, quais são suas limitações conhecidas, como foi avaliado e quando deve ser revisado. É o documento que o EU AI Act e a ANPD esperam encontrar quando perguntam como um sistema de alto risco, como crédito, foi construído e mantido.
O dono responsável fecha a lacuna de responsabilidade. Cada modelo precisa de uma pessoa, ou time, que responde por seu desempenho, decide quando recalibrar e autoriza mudanças. Quando a IA agêntica vira infraestrutura central (Gartner, IDC, McKinsey, 2025-2026), modelos passam a alimentar agentes que decidem em cadeia, e a responsabilidade difusa vira risco sistêmico.
O ciclo de vida define os marcos: avaliação antes de entrar em produção, monitoramento contínuo de desempenho, drift e fairness, revalidação periódica e desativação planejada quando o modelo deixa de servir. Cada marco produz um registro que entra na trilha de auditoria, formando o histórico que sustenta o modelo ao longo do tempo.
A versionação amarra decisão a modelo. Toda decisão de risco precisa saber qual versão do modelo e qual política estavam ativas no momento. Sem isso, é impossível explicar uma decisão antiga ou reproduzir o raciocínio que levou a ela. Versionar modelo e política é a base técnica do direito de revisão garantido pelo Art. 20 da LGPD.
Como avaliar antifraude e score de crédito na prática
Antifraude e score de crédito exigem avaliações diferentes porque otimizam coisas diferentes: antifraude persegue o evento raro e caro, score persegue a calibração da probabilidade que vira preço e limite. Aplicar a mesma régua aos dois é o erro que produz modelo bonito no papel e ruim na operação.
Em antifraude, o evento positivo é raro, então acurácia agregada engana por construção. As métricas que importam são revocação na classe de fraude, quanto do que era fraude o modelo pegou, e precisão, quanto do que ele apontou era de fato fraude. O custo de um falso negativo, fraude que passou, costuma superar em muito o de um falso positivo, então a régua pende para capturar o evento raro, com revisão humana filtrando os alarmes.
Em score de crédito, a probabilidade é o produto. Um modelo que separa bem bom de mau pagador, medido por AUC ou KS, ainda pode estar mal calibrado, prevendo 10% de inadimplência onde a real é 20%. Como a probabilidade vira preço e limite, calibração ruim destrói margem mesmo com boa separação. Por isso a avaliação de score sempre inclui teste de calibração, não só de discriminação.
O backtesting de score respeita a janela real de inadimplência. Uma safra concedida hoje só revela seu desempenho ao longo dos meses seguintes, e medir cedo demais subestima a perda. Com a dívida média por devedor em R$6.728,51 em março de 2026 e o total do país em torno de R$557 bilhões (G1, mai/2026), errar a janela de observação é errar a perda esperada de toda a carteira.
Os dois modelos compartilham a exigência de fairness e trilha. Medir desempenho por subgrupo revela se antifraude marca em excesso certos setores ou se o score recusa injustamente empresas jovens. E ambos precisam da trilha de auditoria completa, cartão, avaliação, drift e log de decisões, para sustentar a decisão perante a ANPD e o EU AI Act, que classificam crédito como aplicação de alto risco.
Roteiro de avaliação contínua em 2026
O roteiro de avaliação contínua trata o modelo como sistema vivo: avaliação antes de produção, monitoramento de drift e fairness durante, e revalidação periódica, tudo registrado na trilha de auditoria. Avaliar uma vez no lançamento e nunca mais é o erro que transforma modelo aprovado em passivo silencioso.
Antes de produção, defina o conjunto de métricas casado com a consequência, faça backtesting sem vazamento temporal e meça fairness por subgrupo. Em produção, monitore entradas e acertos, com limiares de alerta e dono responsável. Em ciclo, revalide quando o drift dispara ou quando o ambiente muda, como na transição da reforma tributária.
O destino é um modelo que você consegue explicar, defender e melhorar. Com a inadimplência de PJ em patamar recorde e a regulação de IA em alto risco se consolidando, a avaliação rigorosa, com supervisão humana e explicabilidade, é o que separa usar IA de risco com responsabilidade de assinar embaixo de uma decisão que ninguém sabe justificar. O modelo não é o entregável; o entregável é a confiança auditável de que ele decide bem onde a decisão importa, e essa confiança se constrói com avaliação que nunca para.
Leia também no DataHub
Fontes
- Serasa Experian - Inadimplência das empresas (2026)
- Banco Central do Brasil - Pix em números (2026)
- Lei Geral de Proteção de Dados (Lei 13.709/2018) (2018)
- EU AI Act - Regulamento de Inteligência Artificial (2024)
- ANPD - Inteligência artificial e decisões automatizadas (2026)
- Gartner - AI TRiSM e governança de modelos (2026)
- IDC - Worldwide AI governance (2026)