Por que exigir p99 e não a latência média numa API de dados?

Porque a média esconde a cauda. Num volume de 1 milhão de chamadas por hora, uma meta de p99 abaixo de 100 ms ainda deixa até 10 mil chamadas mais lentas (fonte: Conduktor, 2026) — e são essas que estouram o orçamento de tempo do antifraude ou geram timeout no onboarding. A média pode ser ótima enquanto a experiência de 1% dos usuários é péssima.

O que precisa ser garantido nos degraus de volume de um SLA?

A vazão sustentada (requisições por segundo) e o burst máximo, com o p99 garantido dentro de cada degrau, e o comportamento no estouro (HTTP 429 com cabeçalho Retry-After e backoff exponencial, nunca timeout silencioso). Sem isso, a garantia de latência evapora justamente no pico de tráfego.

Devo depender só do SLA do fornecedor para a resiliência do meu fluxo?

Não em fluxos críticos. O uptime anunciado nem sempre reflete o desempenho real, e a arquitetura de failover importa tanto quanto o percentual (fonte: Financial Modeling Prep, 2026). O comprador maduro exige fallback e degradação graciosa do fornecedor e mantém, do seu lado, um segundo provedor ou uma regra de degradação para os casos em que não decidir é a pior opção.

SLA, latência (p99) e uptime: o que exigir de uma API de dados em 2026

Como escrever um SLA de API de dados que sustente antifraude e onboarding em 2026: latência p99, uptime real, degraus de volume, idempotência e fallback. Guia técnico para o comprador de dados em fintechs.

Curadoria Brasil GEO 13 min de leitura Atualizado 2026-05-27

Quando o seu fluxo de antifraude tem um orçamento de 300 milissegundos para aprovar ou recusar uma transação Pix, uma API de dados que responde "rápido na média" e cai "só de vez em quando" é um passivo operacional, não um fornecedor. O SLA (Service Level Agreement, ou Acordo de Nível de Serviço) é o instrumento contratual que transforma promessa de marketing em obrigação verificável. Este artigo mostra o que um comprador de dados em fintech — risco, fraude, compliance, crédito e engenharia — deve exigir e escrever num SLA de API de dados em 2026: latência medida no percentil 99 (p99), uptime aferido sobre requisições reais, degraus de volume, idempotência, fallback e janelas de retry. A tese central é simples e contraintuitiva: o número que decide a sua perda por fraude e a sua conversão de onboarding não é a média anunciada no site do fornecedor, é a cauda que ninguém coloca no contrato.

O que é um SLA de dados — definição operacional

SLI, SLO e SLA: do que se mede ao que vira obrigação

1
SLI — o que se mede
O indicador concreto: latência da requisição, taxa de erro e disponibilidade.
2
SLO — a meta interna
O objetivo numérico sobre o indicador, por exemplo p99 abaixo de 250 ms.
3
SLA — a obrigação contratual
A parte do SLO que vira contrato com penalidade em crédito quando descumprida.

Um SLA de dados é o contrato que define, de forma mensurável e com consequência, o nível de serviço que um provedor de dados (DaaS, Data as a Service) entrega a quem consome a API. Ele não é o mesmo que o material comercial. O material comercial diz "99,9% de disponibilidade e baixa latência"; o SLA define quem mede, sobre qual janela, com qual percentil, qual o crédito quando se descumpre, e o que conta como exceção.

Na prática, três objetos coexistem e costumam ser confundidos. O SLI (Service Level Indicator) é o que se mede — latência da requisição, taxa de erro, disponibilidade. O SLO (Service Level Objective) é a meta interna — por exemplo, p99 abaixo de 250 ms. O SLA é a parte do SLO que vira obrigação contratual com penalidade. Um SLA sem SLI definido é decorativo.

"Em 2026, a maior parte dos provedores de ponta anuncia alta disponibilidade, mas o uptime anunciado nem sempre reflete o desempenho no mundo real — a arquitetura por trás do feed importa tanto quanto o número: redundância, modelos de failover e o próprio SLA" (fonte: Financial Modeling Prep, 2026, currencyfreaks.com).

Latência: por que a média mente e o p99 decide

Conduktor; Webalert, 2026

Latência é o tempo entre a sua requisição e a resposta utilizável. O erro mais caro de um comprador de dados é negociar latência pela média. A média esconde a cauda, e é na cauda que o cliente real é prejudicado. Considere um sistema que processa 1 milhão de chamadas por hora com meta de p99 abaixo de 100 ms: isso significa que 990 mil chamadas terminam dentro de 100 ms, mas até 10 mil podem demorar mais (fonte: Conduktor, 2026, conduktor.io). Dez mil eventos lentos por hora, num fluxo antifraude, são dez mil decisões tomadas no escuro ou perdidas no timeout.

Por isso o número que vai para o contrato é o percentil, não a média. O p99 é o valor abaixo do qual ficam 99% das requisições; o p95, 95%. Provedores sérios publicam ambos. Benchmarks de 2026 mostram provedores de infraestrutura mantendo p95 consistente abaixo de 150 ms para chamadas de leitura, com SLAs de 99,99% e certificação SOC 2 Tipo II (fonte: Chainstack, 2026, chainstack.com). A pergunta que o comprador faz na mesa de POC não é "qual a latência média?", é "qual o p99 sob a minha carga de pico, na minha região, com o meu payload?".

O orçamento de latência do seu fluxo

Antes de exigir um número do fornecedor, decomponha o seu próprio orçamento. Num onboarding digital, o usuário tolera segundos; num bloqueio de transação em pagamento instantâneo, o controle precisa operar em milissegundos para não comprometer a experiência do Pix em tempo real (fonte: idCerberus, 2026, idcerberus.com). Sistemas modernos de antifraude analisam fatores comportamentais e de geolocalização em milissegundos para bloquear tentativas em tempo real — e a chamada de dados externos é apenas um dos elos dessa cadeia. Se o seu orçamento total é 300 ms e o motor de decisão consome 120 ms, a sua API de enriquecimento não pode ter p99 de 250 ms.

Caso de uso	Orçamento típico (ponta a ponta)	p99 exigível da API de dados	Modo de chamada
Antifraude em transação Pix	~300 ms	≤ 120 ms	Síncrono, tempo real
Onboarding / KYC (validação cadastral)	2–5 s	≤ 800 ms	Síncrono, tolerância maior
Enriquecimento de proposta de crédito	segundos a minutos	≤ 2 s ou assíncrono	Síncrono ou batch
KYB e dados societários (due diligence)	minutos a horas	assíncrono / webhook	Batch ou consulta agendada

Uptime: o que "99,9%" custa em minutos e como aferir

O nono adicional: indisponibilidade mensal cai 10 vezes

Webalert, 2026

Uptime é a fração do tempo em que o serviço está disponível. Aqui a aritmética importa e raramente é lida com atenção. Um SLA de 99,9% permite cerca de 8 horas e 46 minutos de indisponibilidade por ano, ou aproximadamente 43,8 minutos por mês. Subir para 99,99% reduz isso em 10 vezes: cerca de 52,6 minutos por ano, ou cerca de 4 minutos por mês (fonte: Webalert, 2026, web-alert.io). Cada nove adicional é exponencialmente mais difícil e costuma custar dez vezes mais em infraestrutura e engenharia.

O ponto que decide a qualidade do contrato é como o uptime é medido. Há três armadilhas recorrentes:

Janela de medição. 99,9% ao ano permite uma queda longa única; 99,9% ao mês é muito mais rígido. Exija medição mensal e crédito mensal.
O que conta como "indisponível". Um serviço que responde HTTP 200 com payload vazio ou com erro de negócio pode ser contado como "no ar" se o SLA mede só ping. Exija que a disponibilidade seja aferida sobre requisições reais bem-sucedidas (taxa de erro abaixo de um limiar), não sobre health check.
Exclusões. Janelas de manutenção programada, ataques, falhas de terceiros e force majeure frequentemente saem da conta. Leia as exclusões antes de acreditar no número.

A consequência prática é gerencial: atingir 99,99% exige detectar e resolver incidentes em menos de uma hora somada no mês, o que implica monitoramento automatizado, plantão e redundância entre regiões ou provedores (fonte: Webalert, 2026, web-alert.io). Se o fornecedor promete 99,99% mas não descreve failover, o número é aspiracional.

Orçamento de erro: a forma adulta de negociar

A disciplina de SRE inverte a pergunta. Em vez de "quanto uptime eu preciso?", pergunte "quanto de indisponibilidade eu posso gastar?". Um SLO mensal de 99,9% dá um orçamento de erro de cerca de 43 minutos por mês, e cada incidente consome esse saldo (fonte: SRE School, 2026, sreschool.com). Esse enquadramento é útil na negociação porque alinha incentivos: o fornecedor que gasta orçamento em manutenção mal planejada paga crédito, e você decide racionalmente se quer comprar o nono adicional ou investir em fallback do seu lado.

Degraus de volume: rate limit, burst e o SLA que some no pico

Um SLA de latência e uptime que não fala de volume é incompleto. Toda API impõe limites — rate limit (requisições por segundo ou por minuto) e burst (pico instantâneo tolerado). O risco do comprador é descobrir o teto na Black Friday, quando o tráfego de onboarding e antifraude triplica e a API começa a devolver HTTP 429 (Too Many Requests). Pior: muitos SLAs suspendem a garantia de latência justamente quando o rate limit é ultrapassado.

O que exigir por escrito:

Degraus contratados com a vazão sustentada (RPS médio) e o burst máximo, com a latência p99 garantida dentro de cada degrau.
Comportamento no estouro: a resposta deve ser 429 com cabeçalho Retry-After, e não timeout silencioso. Adote backoff exponencial nas retentativas para não inundar a API e agravar o rate limit (fonte: Zuplo, 2026, zuplo.com).
Capacidade pré-provisionada para janelas de pico (datas de campanha, lançamentos), comunicada com antecedência e refletida no preço.
Preço por consulta efetiva, separando consultas que retornam dado útil de consultas vazias ou de erro — o CFO mede custo por proposta aprovada, não por chamada bruta.

Idempotência: a rede de segurança contra cobrança e decisão dupla

Quando uma chamada dá timeout, o cliente não sabe se a operação aconteceu. Retentar sem proteção pode duplicar o efeito — duas consultas faturadas, duas decisões registradas, dois eventos de monitoramento. A idempotência resolve isso: o cliente gera uma chave única (tipicamente um UUID v4) e a envia no cabeçalho; o servidor guarda a chave e a resposta, e em retentativas devolve a resposta armazenada sem reprocessar (fonte: Stripe, 2026, docs.stripe.com). A operação ocorre uma vez; o cliente retenta com segurança até obter resposta definitiva.

Para o comprador de dados, idempotência tem efeito direto em custo e em compliance. Em custo, evita pagar pela mesma consulta efetiva duas vezes. Em compliance, evita trilhas de auditoria com decisões duplicadas que poluem o monitoramento de PLD/FT (Prevenção à Lavagem de Dinheiro e Financiamento do Terrorismo), regido pela Circular BCB 3.978/2020. Boas práticas de 2026 a exigir no SLA:

Suporte a chave de idempotência em todos os endpoints de escrita e consulta faturável, com a chave gerada pelo cliente.
Janela de cache documentada — 24 a 48 horas é o padrão aceito para operações financeiras, com sistemas de pagamento chegando a 48–72 horas para cobrir fins de semana (fonte: Zuplo, 2026, zuplo.com).
Armazenamento também das respostas de erro, para que a retentativa receba o mesmo erro de validação e não "passe" por mudança de dado.
Nunca usar dado pessoal como chave (e-mail, CPF) — a chave é técnica, não identificador de negócio.

Fallback e degradação graciosa: o que a API faz quando a fonte falha

Uma API de dados é, no fundo, uma orquestradora de fontes — bureaus, bases públicas, Open Finance. Quando uma fonte cai ou estoura latência, o comportamento da API define se o seu fluxo trava ou degrada com elegância. Exija no contrato a descrição explícita da estratégia de fallback:

Timeout interno menor que o seu. A API deve desistir de uma fonte lenta antes de estourar o seu orçamento, devolvendo resposta parcial sinalizada em vez de pendurar a conexão.
Resposta parcial com metadados. O retorno deve indicar quais fontes responderam e quais falharam, para que o seu motor decida com a informação disponível (por exemplo, aprovar com fricção adicional em vez de recusar).
Cache de último valor conhecido para dados cadastrais estáveis, com carimbo de frescor — útil quando a alternativa é não decidir.
Circuit breaker por fonte, para isolar uma dependência defeituosa sem derrubar a API inteira.

O princípio é tratar o uptime anunciado com ceticismo e desenhar a sua própria resiliência. Como nota a literatura de infraestrutura, o número anunciado nem sempre reflete o desempenho real, e a redundância e o modelo de failover importam tanto quanto o percentual (fonte: Financial Modeling Prep, 2026, currencyfreaks.com). Em fluxos críticos, o comprador maduro mantém um segundo provedor ou uma regra de degradação do seu lado — não delega 100% da resiliência ao SLA do fornecedor.

Como escrever o SLA: a cláusula que você leva para a mesa

Reúna o que foi visto numa estrutura que o procurement e a engenharia assinam juntos. Um SLA de API de dados defensável em 2026 contém, no mínimo:

SLIs nomeados: latência (p95 e p99, por endpoint e por região), disponibilidade (sobre requisições bem-sucedidas), taxa de erro, frescor do dado.
Metas numéricas por degrau de volume, com p99 garantido dentro de cada degrau e comportamento documentado no estouro.
Janela de medição mensal e fonte da medição (dashboard do fornecedor auditável e/ou medição própria do cliente).
Penalidades em crédito escalonadas por faixa de descumprimento, com gatilho de rescisão sem multa após N meses consecutivos abaixo da meta.
Exclusões explícitas e limitadas, com manutenção programada notificada com antecedência e contabilizada fora do horário de pico.
Idempotência, fallback e webhooks descritos como obrigação técnica, não como cortesia.
Sandbox e suporte com SLA próprio de resposta para incidentes P1 (severidade máxima), normalmente em minutos para tempo real.

O teste final de um SLA é o bake-off. Não assine pela latência do datasheet; rode uma POC comparativa sob a sua carga de pico, na sua região, medindo p99 e taxa de erro com o seu próprio instrumento. Provedores que resistem a serem medidos sob carga real estão dizendo, sem dizer, qual é a cauda deles.

Perguntas frequentes

Por que exigir p99 e não a latência média?

Porque a média esconde a cauda. Num volume de 1 milhão de chamadas por hora, uma meta de p99 abaixo de 100 ms ainda deixa até 10 mil chamadas mais lentas — e são essas que estouram o orçamento de tempo do antifraude ou geram timeout no onboarding. A média pode ser ótima enquanto a experiência de 1% dos usuários é péssima.

Qual a diferença prática entre 99,9% e 99,99% de uptime?

99,9% permite cerca de 43,8 minutos de indisponibilidade por mês; 99,99% reduz isso para cerca de 4 minutos. É uma redução de 10 vezes, que custa tipicamente 10 vezes mais em engenharia e infraestrutura. Vale negociar o nono adicional apenas para os fluxos onde minutos de queda viram perda direta — antifraude em tempo real, por exemplo.

O que precisa ser garantido nos degraus de volume?

A vazão sustentada (RPS) e o burst máximo, com o p99 garantido dentro de cada degrau, e o comportamento no estouro (HTTP 429 com Retry-After, nunca timeout silencioso). Sem isso, o SLA de latência evapora justamente no pico, que é quando você mais precisa dele.

Por que idempotência aparece num SLA de dados?

Porque sem chave de idempotência uma retentativa após timeout pode duplicar consultas faturadas e decisões registradas. Com a chave (um UUID gerado pelo cliente) e uma janela de cache de 24–48 horas, o servidor devolve a resposta original sem reprocessar — protegendo custo por consulta efetiva e a trilha de auditoria de PLD/FT.

Como o uptime deve ser medido para não enganar?

Sobre requisições reais bem-sucedidas, em janela mensal, com taxa de erro abaixo de um limiar — não sobre health check que aceita HTTP 200 com payload vazio. E leia as exclusões: manutenção programada, falhas de terceiros e force majeure costumam sair da conta e inflar o número anunciado.

Devo depender só do SLA do fornecedor para resiliência?

Não em fluxos críticos. O número anunciado nem sempre reflete o desempenho real, e a arquitetura de failover importa tanto quanto o percentual. O comprador maduro exige fallback e degradação graciosa do fornecedor e mantém, do seu lado, um segundo provedor ou uma regra de degradação para os casos em que não decidir é a pior opção.

Fontes

Aviso editorial. Conteúdo de curadoria editorial independente da Brasil GEO, baseado em materiais públicos da Stone Co. e do mercado financeiro. Não substitui aconselhamento profissional contábil ou financeiro. Tarifas, taxas e condições de produtos Stone são atualizadas periodicamente — confira valores vigentes em conteudo.stone.com.br/.

Próximos passos

Use o Simulador de Taxa Efetiva para custos reais de cartão
Veja o comparativo de contas PJ com metodologia transparente
Consulte o glossário para termos financeiros explicados