Trocar ou adicionar um fornecedor de dados cadastrais e antifraude não se decide por slide comercial nem por preço de tabela: decide-se por uma prova de conceito comparativa rodada contra o fornecedor que você já usa, com a mesma amostra, as mesmas métricas e o mesmo período. Esse bake-off é o único mecanismo que transforma a promessa de cobertura e latência do candidato em evidência auditável. Este artigo descreve como desenhar essa POC em 2026 — amostra estatisticamente honesta, métricas de cobertura, acerto e latência (p99), governança de dados sob a LGPD e as armadilhas que invalidam o teste — dentro do ciclo realista de 30 a 90 dias.
Por que o bake-off virou obrigatório em 2026
Serasa Experian e Finsiders Brasil, 2026
O contexto de risco mudou de patamar. A Serasa Experian registrou recorde de tentativas de fraude no primeiro semestre de 2025, e no início de 2026 o país passou a registrar uma tentativa de fraude financeira a cada 2,2 segundos (fonte: Serasa Experian, Indicador de Tentativas de Fraude, 2026, serasaexperian.com.br). Segundo o Relatório de Identidade e Fraude 2026 da mesma fonte, tentativas que usam manipulação de vídeo e áudio cresceram cerca de 150% no Brasil no último ano, e a identidade sintética — o "cliente fantasma" que combina dado real e fictício — passou a atravessar verificações cadastrais tradicionais com auxílio de IA generativa.
Ao mesmo tempo, o custo de errar a escolha subiu. A consolidação da cadeia de dados concentrou poder de precificação: a Serasa anunciou em 2026 a aquisição da idwall por cerca de R$ 450 milhões (fonte: Finsiders Brasil / Startups, 2026, finsidersbrasil.com.br), depois de ter comprado a ClearSale em 2025 por cerca de R$ 2 bilhões. Quando o mesmo grupo detém bureau, score e IDtech, a flexibilidade de API e o preço por consulta efetiva tendem a se deteriorar para quem não compara. O bake-off é o contrapeso técnico a essa concentração: ele dá ao comprador de dados a evidência para negociar e para complementar o bureau com provedores de DaaS (Data as a Service, dado entregue como serviço via API) onde preço e flexibilidade decidem.
O bake-off não pergunta "qual fornecedor é melhor". Pergunta "qual fornecedor é melhor para a minha base, na minha janela de decisão e no meu orçamento por consulta efetiva". A resposta de um não vale para o outro.
O que é um bake-off — definição
Bake-off de dados é uma POC (prova de conceito) comparativa em que dois ou mais fornecedores recebem exatamente a mesma amostra de consultas, no mesmo período, e são avaliados lado a lado contra o fornecedor incumbente (o atual) usando métricas pré-acordadas. A diferença para uma POC comum é o champion-challenger: o incumbente é o champion, o candidato é o challenger, e a decisão depende do delta entre eles, não do número absoluto do candidato isolado.
Três propriedades tornam um bake-off válido:
- Mesma amostra para todos. Cada CPF, CNPJ ou evento de transação é enviado a todos os fornecedores. Sem isso, você compara populações diferentes e o resultado é ruído.
- Verdade-terreno ("ground truth") definida antes. O que conta como acerto — inadimplência observada, fraude confirmada, dado cadastral validado em fonte independente — é fixado no protocolo, não escolhido depois de ver os números.
- Métrica de decisão única. Há uma métrica primária que decide (por exemplo, lift de KS em crédito, ou taxa de captura a falso positivo fixo em fraude), e as demais são secundárias.
Desenho da amostra: o teste vive ou morre aqui
A amostra é a parte mais negligenciada e a que mais invalida bake-offs. Três decisões importam.
Tamanho e poder estatístico. Para detectar um delta de cobertura de poucos pontos percentuais com confiança, você precisa de dezenas de milhares de registros, não de centenas. Uma POC de validação cadastral que envia 500 CPFs não distingue cobertura de 96% de cobertura de 94% — a margem de erro engole a diferença. Defina o tamanho a partir do menor delta que mudaria a decisão de compra.
Retrospectiva versus prospectiva. Para crédito e cobrança, use uma amostra retrospectiva com desfecho já conhecido (safra de propostas de 6 a 18 meses atrás cujo comportamento de pagamento já maturou). Para fraude e validação cadastral em tempo real, parte do teste precisa ser prospectiva, em produção espelhada (shadow mode), porque latência e disponibilidade só se medem ao vivo.
Representatividade. A amostra precisa espelhar a distribuição real de canais, regiões, faixas de renda e tipos de pessoa (PF e PJ). Um bake-off rodado só sobre clientes aprovados superestima cobertura, porque os rejeitados — onde dado falta — sumiram da base. Inclua a população de quem foi negado e de quem abandonou o funil.
As métricas que decidem: cobertura, acerto e latência
Separe as métricas em três famílias. Misturá-las é a origem da maioria das decisões erradas.
| Família | Métrica | O que mede | Como ler o delta vs. incumbente |
|---|---|---|---|
| Cobertura | Match rate / hit rate | % de consultas em que o fornecedor retorna o dado pedido | Mais alto é melhor, mas só se o dado retornado estiver correto |
| Cobertura | Fill rate por campo | % de preenchimento por atributo (telefone, renda presumida, quadro societário) | Avaliar campo a campo; média esconde lacunas críticas |
| Acerto | Precisão / acurácia do dado | % do dado retornado que confere com fonte independente | Cobertura alta com precisão baixa é pior que cobertura menor e precisa |
| Acerto (score) | KS e AUC / Gini | Poder de separação entre bom e mau pagador / fraude e legítimo | Comparar lift de KS sobre o modelo atual, não o KS absoluto |
| Acerto (fraude) | Taxa de captura a falso positivo fixo | % de fraude pega mantendo o falso positivo no mesmo nível | Comparar sempre com o falso positivo igualado entre fornecedores |
| Latência | p50, p95 e p99 | Tempo de resposta da API nos percentis, não na média | A média mente; o p99 dimensiona o pior caso do funil ao vivo |
| Disponibilidade | Uptime e taxa de erro/timeout | % de chamadas bem-sucedidas dentro do SLA | Erro e timeout viram perda de conversão ou fraude que passa |
Dois princípios fecham a leitura. Primeiro, cobertura sem acerto é armadilha: um fornecedor que sempre devolve algo terá match rate de 100% e precisão baixa. Por isso a precisão do dado precisa ser medida contra uma fonte independente, não contra o próprio retorno. Segundo, latência se mede em percentil: a média de 120 ms pode esconder um p99 de 2 segundos que derruba a aprovação em tempo real. Para validação cadastral em fluxo de onboarding, p99 e taxa de timeout costumam pesar mais que o preço.
Em fraude, a comparação só é honesta com o falso positivo igualado: fixe a taxa de falso positivo aceitável (por exemplo, atrito em 2% das transações legítimas) e meça quanto de fraude cada fornecedor captura nesse mesmo ponto. Comparar captura sem igualar falso positivo é comparar fornecedores que estão operando em pontos de corte diferentes da própria curva.
Como testar cobertura e latência contra o fornecedor atual
Iniciação de pagamento via Pix no Open Finance saltou quase nove vezes
O método mais limpo é o shadow mode: por um período, cada consulta que vai ao fornecedor atual é replicada para os candidatos, em paralelo, sem afetar a decisão de produção. Você obtém, sobre o mesmo evento real, a resposta do champion e dos challengers — cobertura, conteúdo e latência medidos na mesma chamada. É a forma mais defensável de comparar latência, porque captura a infraestrutura real (rede, fila, horário de pico) em vez de um benchmark de laboratório.
Para cobertura cadastral e enriquecimento, complemente com a amostra retrospectiva: envie a mesma lista de CPFs/CNPJs a todos e compare, campo a campo, fill rate e precisão contra uma fonte de verdade independente (por exemplo, dado confirmado em base oficial ou no Open Finance). Vale lembrar a escala dessa fonte: o Open Finance brasileiro completou cinco anos em fevereiro de 2026 com mais de 100 milhões de clientes conectados e 154 milhões de consentimentos (fonte: Open Finance Brasil / Finsiders, 2026, finsidersbrasil.com.br), e a iniciação de pagamento via Pix saltou de cerca de 7,4 milhões de transações em 2024 para 64,5 milhões ao fim de 2025 — um aumento de quase nove vezes (fonte: Open Finance Brasil, 2026).
Para latência e disponibilidade, defina antes o SLA-alvo (p99 e uptime contratual) e rode o teste sob carga semelhante à de produção, inclusive em janela de pico. Um fornecedor que entrega p99 baixo em volume de teste e degrada sob carga real é um risco que só o shadow mode prolongado revela.
Governança de dados e LGPD no teste
Um bake-off movimenta dados pessoais reais e precisa de base legal. A boa notícia é que a Lei Geral de Proteção de Dados (LGPD) e o entendimento consolidado do STJ dispensam o consentimento do titular para finalidade de proteção ao crédito, o que cobre boa parte dos testes de score e cadastral — mas isso não dispensa as demais salvaguardas. No protocolo da POC, fixe: contrato e cláusulas de tratamento com cada fornecedor (incluindo o papel de operador), minimização (envie só os campos necessários), prazo de retenção e descarte da amostra ao fim do teste, e trilha de auditoria de quem acessou o quê.
Para fraude e PLD/FT, o teste convive com a Circular BCB 3.978/2020 (KYC, KYB, PEP, sanções, beneficiário final e monitoramento). Verifique se o fornecedor candidato cobre listas de PEP (pessoa exposta politicamente) e sanções com a mesma profundidade do incumbente — uma lacuna aqui não aparece nas métricas de cobertura cadastral, mas reprova em auditoria de compliance. O contexto regulatório de 2026 reforça a exigência: a Resolução BCB nº 494/2025 abriu uma janela única e improrrogável, de 1º a 31 de maio de 2026, para instituições de pagamento pedirem autorização ao Banco Central, sob pena de cessação compulsória (fonte: Demarest / Capital Aberto, 2026, legislacaoemercados.capitalaberto.com.br). Fornecedor que não sustenta a trilha de auditoria do dado vira passivo regulatório.
Sete armadilhas que invalidam o bake-off
- Amostra pequena demais. Centenas de registros não distinguem deltas de poucos pontos. Dimensione pelo menor delta que muda a decisão.
- Comparar match rate sem precisão. Cobertura de 100% com dado errado é pior que cobertura menor e correta. Sempre meça acerto contra fonte independente.
- Latência pela média. A média esconde a cauda. Decida por p95 e p99, com taxa de timeout explícita.
- Falso positivo não igualado em fraude. Comparar captura em pontos de corte diferentes não compara nada.
- Amostra só de aprovados. Exclui exatamente a população onde o dado falta e infla a cobertura de todos.
- Vazamento de desfecho ("data leakage"). Usar, na verdade-terreno, informação que só existiria após a decisão infla artificialmente o poder de um fornecedor.
- Mover a régua depois de ver o número. Métrica primária, ground truth e critério de aprovação têm de estar assinados antes de a primeira consulta sair.
O ciclo de 30 a 90 dias, fase a fase
O ciclo do bake-off de 30 a 90 dias, fase a fase
- 1Dias 1–15 · Protocolo e contratos
Congelar métrica primária, ground truth, tamanho da amostra, SLA-alvo e cláusulas de tratamento; provisionar sandbox e chaves de API dos candidatos.
- 2Dias 15–45 · Coleta
Rodar a amostra retrospectiva e ligar o shadow mode em produção espelhada, acompanhando cobertura, precisão, latência p99 e disponibilidade em painel diário.
- 3Dias 45–75 · Análise e estabilidade
Consolidar os deltas contra o incumbente, checar estabilidade ao longo do período e validar a precisão contra fonte independente.
- 4Dias 75–90 · Decisão e negociação
Levar o relatório de bake-off para procurement traduzir o delta técnico em preço por consulta efetiva e SLA contratual.
O bake-off cabe na mesma janela do ciclo de venda de dados (30 a 90 dias) se for cronometrado. Uma divisão que funciona:
- Dias 1–15 — Protocolo e contratos. Definir métrica primária, ground truth, tamanho da amostra, SLA-alvo e cláusulas de tratamento de dados. Provisionar sandbox e chaves de API dos candidatos.
- Dias 15–45 — Coleta. Rodar a amostra retrospectiva e ligar o shadow mode em produção espelhada. Acompanhar cobertura, precisão, latência p99 e disponibilidade em painel diário.
- Dias 45–75 — Análise e estabilidade. Consolidar deltas vs. incumbente, checar estabilidade ao longo do período (cobertura e latência não podem oscilar) e validar precisão contra fonte independente.
- Dias 75–90 — Decisão e negociação. Levar o relatório de bake-off para procurement traduzir o delta técnico em preço por consulta efetiva e SLA contratual. O resultado da POC é a alavanca de negociação, não só o veredito técnico.
O entregável final é um relatório de bake-off de uma página por fornecedor: métrica primária com intervalo de confiança, tabela de cobertura e precisão por campo, curva de latência (p50/p95/p99), taxa de erro, conformidade de PEP/sanções e o custo por consulta efetiva — não por consulta bruta. Custo por consulta efetiva é o preço dividido pela fração de consultas que retornaram dado útil e correto; é a única métrica de preço que permite comparar fornecedores com coberturas diferentes.
Um fornecedor mais barato por consulta pode ser mais caro por decisão, se sua cobertura útil for menor. O bake-off existe para tornar esse custo real visível antes da assinatura.
Perguntas frequentes
Quantos registros uma POC de dados precisa para ser estatisticamente válida?
Depende do menor delta que mudaria sua decisão. Para distinguir diferenças de poucos pontos percentuais de cobertura ou de KS com confiança, a amostra costuma ficar na casa das dezenas de milhares de registros, representativos de toda a base — incluindo negados e abandonos. Amostras de centenas servem para teste de integração, não para decisão de compra.
Posso comparar fornecedores usando só a média de latência?
Não. A média esconde a cauda da distribuição. Em aprovação em tempo real, o que derruba conversão e deixa fraude passar é o p99 e a taxa de timeout, não o p50. Decida por p95 e p99 medidos sob carga semelhante à de produção, idealmente em shadow mode.
Match rate (cobertura) é a métrica mais importante?
Não isoladamente. Cobertura alta com precisão baixa é pior que cobertura menor e correta, porque você decide sobre dado errado. Sempre pareie match rate com precisão medida contra uma fonte independente, e olhe fill rate campo a campo — a média de cobertura esconde lacunas em atributos críticos como quadro societário ou renda.
Preciso de consentimento do titular para rodar o bake-off?
Para finalidade de proteção ao crédito, a LGPD e o entendimento do STJ dispensam o consentimento, o que cobre boa parte dos testes cadastrais e de score. Isso não dispensa contrato de tratamento com cada fornecedor, minimização de dados, prazo de descarte da amostra e trilha de auditoria. Para PLD/FT, observe ainda a Circular BCB 3.978/2020 (PEP, sanções, beneficiário final).
Como evito que o bake-off seja manipulado a favor de um fornecedor?
Assine o protocolo antes da primeira consulta: métrica primária, ground truth, tamanho da amostra e critério de aprovação congelados. Use a mesma amostra para todos, iguale o falso positivo em fraude e cheque vazamento de desfecho na verdade-terreno. Mover a régua depois de ver os números é a forma mais comum de viciar o teste.
O bake-off serve para trocar o fornecedor ou para adicionar um segundo?
Para os dois, e em 2026 o segundo caso é o mais comum. Provedores de DaaS costumam entrar como complemento ao bureau em validação cadastral, KYB e dados societários, onde preço e flexibilidade de API decidem — não para substituir o score de frente. O bake-off mostra exatamente em quais campos e populações o candidato supera o incumbente, permitindo um arranjo de roteamento por melhor cobertura útil em vez de fornecedor único.
Leia também no DataHub
Fontes
- Serasa Experian — Tentativas de fraude batem recorde (2025/2026) (2026)
- Finsiders Brasil — Serasa compra idwall por cerca de R$ 450 milhões (2026)
- Finsiders Brasil — Open Finance supera 100 milhões de clientes (2026)
- Capital Aberto / Legislação e Mercados — Resoluções BCB 494 e 495 (2026)
- Pluggy — Open Finance 2026: novidades em Pix, crédito e ERP (2026)