RAG e LLMs no compliance: recuperação aumentada sobre dados de PJ

Como RAG, embeddings e LLMs respondem perguntas de compliance e risco sobre dados de pessoa jurídica citando a fonte — e por que o dado cadastral confiável é o que separa resposta auditável de alucinação.

Curadoria Brasil GEO 14 min de leitura Atualizado 2026-05-27

A tese é direta: um grande modelo de linguagem (LLM, na sigla em inglês para large language model) não deve responder perguntas de compliance e risco sobre uma empresa a partir do que "memorizou" no treino. Ele deve recuperar o dado cadastral atual, amarrar a resposta à fonte e mostrar a citação. Esse desenho — RAG, ou retrieval-augmented generation (geração aumentada por recuperação) — transfere a carga da verdade do modelo para o dado. Quando o dado de pessoa jurídica é confiável e datado, a alucinação cai e a resposta vira auditável. Quando não é, o modelo inventa com fluência.

O problema: fluência não é verdade

Um LLM gera a próxima palavra mais provável dado o contexto. Ele é otimizado para coerência, não para correção factual. Em perguntas de compliance sobre uma pessoa jurídica — situação cadastral na Receita Federal, composição do quadro societário, vínculo de um sócio com outras empresas, enquadramento como pessoa exposta — coerência sem verdade é exatamente o pior resultado: a resposta soa convincente e está errada.

Os números de 2026 deixam o risco explícito. Levantamentos independentes de benchmark mostram taxas de alucinação entre 15% e 52% em 37 modelos avaliados, com a maioria concentrada na faixa de 20% a 27% (fonte: SQ Magazine, 2026, sqmagazine.co.uk). No domínio jurídico, o Stanford RegLab e o Stanford HAI mediram alucinação entre 69% e 88% em consultas legais específicas — justamente o tipo de pergunta normativa que o compliance faz o dia inteiro (fonte: Stanford RegLab citado por SQ Magazine, 2026, sqmagazine.co.uk).

A alucinação corporativa é, antes de tudo, um problema de governança de dado e de ancoragem — não de capacidade do modelo. Onde o dado é governado e recuperável, a taxa despenca; onde não é, ela explode.

Para um diretor de risco, fraude ou compliance, isso reposiciona a pergunta. Não é "qual o melhor modelo?". É "sobre qual base de dado de PJ o modelo está autorizado a responder, e ele cita?".

O que é RAG — definição em duas frases

SQ Magazine, Kernshell, Gartner e Sthambh, 2026

RAG (geração aumentada por recuperação) é a arquitetura em que, antes de o modelo escrever a resposta, um mecanismo de busca recupera trechos relevantes de uma base de conhecimento e os injeta no contexto da pergunta. O modelo passa a responder a partir de evidência recuperada no momento da consulta, e não apenas dos pesos congelados no treino.

O efeito sobre o risco é mensurável. Ao ancorar a resposta em dado verificável no instante da consulta, o RAG corporativo reduz alucinações em 70% a 90% e dá a cada resposta uma fonte rastreável (fonte: Kernshell, 2026, kernshell.com). Em uso corporativo, adicionar ancoragem contextual reduz a alucinação de 30% a 50% nos casos gerais, e em sumarização ancorada os modelos de ponta chegaram a taxas de 0,7% a 1,5% (fonte: SQ Magazine, 2026, sqmagazine.co.uk).

O RAG deixou de ser experimento. Em 2026, 51% das implantações corporativas de IA usam RAG como padrão arquitetural central, o que coloca o vector store sob o mesmo escrutínio regulatório de um banco de dados SQL (fonte: Sthambh, 2026, sthambh.com). E a pressão é estrutural: o Gartner projeta que, ao longo de 2026, mais de 70% das iniciativas corporativas de IA generativa exigirão pipelines de recuperação estruturada para mitigar alucinação e risco de compliance (fonte: Gartner citado por Techment, 2026, techment.com).

Embeddings: como a máquina "entende" semelhança

As cinco etapas do pipeline RAG sobre dado de PJ

1
Ingestão e fragmentação
Cadastro da Receita, QSA, normas e listas restritivas são quebrados em fragmentos com metadados de fonte, data e jurisdição.
2
Vetorização
Cada fragmento vira um embedding e é armazenado em um banco vetorial.
3
Recuperação
A pergunta vira embedding e o sistema busca os fragmentos mais próximos, combinando busca vetorial com BM25 (hybrid search).
4
Geração ancorada
O LLM recebe pergunta mais fragmentos recuperados e redige a resposta restrita àquele contexto.
5
Atribuição
A resposta carrega a citação dos documentos usados, com fonte e data, tornando a saída defensável diante de um auditor.

Brasil GEO sobre Techment, 2026

Embedding (vetor de representação) é a tradução de um texto — uma razão social, um trecho de norma do BACEN, uma cláusula de política interna — em um vetor numérico de centenas de dimensões. Textos com significado próximo ficam próximos nesse espaço vetorial. É isso que permite responder "essa empresa tem indício de operação de fachada?" recuperando documentos semanticamente relacionados, mesmo que não contenham a palavra "fachada".

O pipeline padrão de RAG sobre dado de PJ tem cinco etapas:

Ingestão e fragmentação. Cadastro da Receita, QSA (Quadro de Sócios e Administradores), normas, listas restritivas e políticas internas são quebrados em fragmentos (chunks) com metadados de fonte, data e jurisdição.
Vetorização. Cada fragmento vira um embedding e é armazenado em um banco vetorial.
Recuperação. A pergunta também vira embedding; o sistema busca os fragmentos mais próximos, frequentemente combinando busca vetorial com BM25 (busca lexical clássica) — o chamado hybrid search.
Geração ancorada. O LLM recebe pergunta mais fragmentos recuperados e redige a resposta restrita àquele contexto.
Atribuição. A resposta carrega a citação dos documentos usados, com fonte e data.

A etapa 5 não é cosmética. O RAG mostra ao usuário exatamente quais documentos embasaram a resposta, e essa transparência é o que torna a saída defensável diante de um auditor (fonte: Techment, 2026, techment.com). Há, porém, um efeito psicológico perigoso que o compliance precisa conhecer: usuários que recebem citações têm o dobro de probabilidade de confiar na resposta — mesmo quando ela está incorreta (fonte: SQ Magazine, 2026, sqmagazine.co.uk). A citação precisa apontar para fonte verdadeira; citar mal é pior que não citar.

Por que o dado de PJ confiável é o que mitiga a alucinação

A alucinação varia de domínio para domínio — e despenca quando há ancoragem

SQ Magazine, Stanford RegLab e Kernshell, 2026

RAG é tão bom quanto a base que recupera. O Gartner encontrou que 52% das respostas corporativas de IA contêm fabricações quando rodam sobre dado de RAG não governado — e prevê que, ao longo de 2026, as organizações abandonarão 60% dos projetos de IA não sustentados por dado pronto para IA (fonte: Gartner citado por SQ Magazine e Atlan, 2026, atlan.com). Em outras palavras: o gargalo não é o modelo, é o dado.

No caso brasileiro, a base canônica de pessoa jurídica é o CNPJ da Receita Federal, publicado mensalmente como dado aberto, com situação cadastral, natureza jurídica, data de abertura e Quadro de Sócios e Administradores (fonte: Receita Federal / dados.gov.br, 2026, dados.gov.br). Mas o dado aberto bruto tem latência de atualização, lacunas no QSA e ruído de grafia. Um pipeline de compliance sério não consulta o LLM "de memória" sobre uma empresa; ele recupera o registro cadastral institucional, datado e reconciliado, e força a resposta a citá-lo.

É exatamente aqui que entra um provedor de dado cadastral institucional. A Datahub — plataforma brasileira de dados, com 20 anos de mercado, integrante do grupo Nuvini (NASDAQ: NVNI) — opera como a camada de verdade sobre a qual o RAG recupera: cadastro de PJ reconciliado, vínculos societários, atributos de risco, todos com proveniência e data. O diferencial não é "ter o dado", é entregá-lo recuperável, datado e citável, de modo que o agente de IA possa ancorar cada afirmação. Em um comparativo de mercado, isso se posiciona por complementaridade às camadas de bureau de crédito (como Serasa e Boa Vista/Equifax) e às fontes públicas: o RAG bem desenhado costuma orquestrar várias fontes — pública, bureau e cadastral institucional — e citar cada uma.

Dimensão	LLM "puro" (memória do treino)	RAG sobre dado de PJ confiável
Origem da resposta	Pesos congelados, sem data	Registro recuperado no momento da consulta
Atualidade	Limitada ao corte de treino	Tão atual quanto a base recuperada
Citação de fonte	Ausente ou inventada	Fonte, data e jurisdição por afirmação
Alucinação	15% a 52% (benchmark 2026)	Reduções de 70% a 90% relatadas
Auditabilidade	Caixa-preta	Trilha rastreável documento a documento
Risco regulatório	Alto (decisão não explicável)	Compatível com exigência de explicabilidade

Regulação 2026: explicabilidade deixou de ser opcional

O ambiente normativo de 2026 transforma "citar a fonte" de boa prática em requisito. O EU AI Act (Regulamento de IA da União Europeia) classifica como alto risco os sistemas que avaliam a capacidade de crédito de pessoas naturais ou estabelecem score de crédito, e fixa 2 de agosto de 2026 como data central de enforcement das regras do Anexo III — com exigências de gestão de risco, governança de dados, documentação técnica, rastreabilidade (logging) e supervisão humana (fonte: EU AI Act / artificialintelligenceact.eu, 2026, artificialintelligenceact.eu). As penalidades chegam a 35 milhões de euros ou 7% do faturamento global para práticas proibidas (fonte: AI2.work, 2026, ai2.work). Há discussão sobre adiamento via Digital Omnibus para dezembro de 2027, mas, sem adoção a tempo, o prazo de agosto de 2026 permanece — e as empresas devem planejar pelo cenário original (fonte: Secure Privacy, 2026, secureprivacy.ai).

No Brasil, a ANPD (Autoridade Nacional de Proteção de Dados) incluiu, em dezembro de 2025, "inteligência artificial e tecnologias emergentes" entre os quatro eixos prioritários de fiscalização do biênio 2026-2027, e foi posicionada como coordenadora do Sistema Nacional de Inteligência Artificial no projeto enviado pelo Executivo (fonte: Confidata, 2026, confidata.com.br). O PL 2338/2023, marco regulatório da IA, foi aprovado pelo Senado em dezembro de 2024 e tramita na Câmara (fonte: Senado Federal, 2026, senado.leg.br). Mesmo antes da aprovação, a LGPD já obriga quem usa IA com dado pessoal — e a ANPD já fiscaliza, como mostraram as medidas contra Meta e World/Worldcoin (fonte: Confidata, 2026, confidata.com.br).

A consequência operacional é única em todos esses regimes: uma decisão de risco sobre uma empresa precisa ser explicável e rastreável até a fonte. Um LLM que responde sem citar não atende. Um pipeline RAG que recupera dado datado e cita, sim.

Do RAG para o agêntico: MCP e o dado como ferramenta

O padrão de 2026 vai além do RAG estático. Sistemas agênticos não apenas leem documentos: executam passos, chamam APIs e decidem o que recuperar. A peça que padronizou esse acesso é o MCP (Model Context Protocol, ou Protocolo de Contexto de Modelo), descrito como o "USB-C da IA" por criar uma linguagem aberta e única para o modelo conversar com ferramentas e fontes de dado (fonte: Coderio, 2026, coderio.com).

Construir sistemas de produção em 2026 exige integrar três padrões: RAG para precisão de recuperação, MCP para acesso seguro e auditável a sistemas externos, e orquestração agêntica para fluxos de múltiplos passos com supervisão humana (fonte: AetherLink, 2026, aetherlink.ai). Na prática do compliance, isso significa que o cadastro de PJ confiável deixa de ser um "documento a recuperar" e vira uma ferramenta que o agente invoca via MCP — com permissões, log e citação embutidos. O ganho é concreto: em um estudo de caso, revisões que levavam 3,5 horas por cliente caíram para 12 minutos, com acurácia factual elevada a 94% por meio de RAG e contexto regulatório sempre ancorado na documentação vigente (fonte: ICMD, 2026, icmd.app).

Riscos residuais: o que o RAG não resolve sozinho

RAG mitiga, não elimina. Quatro riscos permanecem e exigem controle de quem opera compliance:

Recuperação ruim. Se o mecanismo traz fragmentos irrelevantes, o modelo ancora em evidência errada. A qualidade da recuperação é tão crítica quanto a do dado.
Permissão herdada. Quando a IA recupera atravessando silos sem replicar as permissões dos sistemas de origem, ela vira passivo de compliance (fonte: Techment, 2026, techment.com). Controle de acesso e metadados precisam vir antes da recuperação.
Jurisdição do vetor. Bancos vetoriais, pipelines de embedding e endpoints de inferência precisam rodar em jurisdições aprovadas ou estar cobertos por avaliação de terceiros (fonte: Sthambh, 2026, sthambh.com).
Inversão de embedding. Pesquisa de fevereiro de 2026 demonstrou o arcabouço Zero2Text reconstruindo atributos sensíveis a partir de embeddings, sem treino, entre famílias de modelos (fonte: Sthambh, 2026, sthambh.com). Dado de PJ vetorizado é dado que precisa de proteção.

A decisão para diretores de risco e dados

A escolha pessoal que este artigo sustenta é deslocar o investimento da pergunta "qual LLM" para a pergunta "qual base de dado de PJ alimenta o RAG, com qual proveniência e qual citação". O modelo é commodity; o dado cadastral confiável, datado e recuperável é o ativo que separa uma resposta auditável de uma alucinação convincente.

O próximo passo é prático: auditar, hoje, se suas respostas de IA sobre empresas citam fonte e data verificáveis. Se não citam, o sistema está gerando convicção sem evidência — e, sob o EU AI Act de agosto de 2026 e a fiscalização da ANPD no biênio 2026-2027, isso é risco regulatório, não apenas técnico. RAG sobre dado de PJ confiável é a forma de transformar o LLM de oráculo opaco em assistente que mostra de onde tirou cada afirmação.

Perguntas frequentes

RAG elimina a alucinação do LLM?

Não elimina, mas reduz de forma expressiva. Levantamentos de 2026 relatam quedas de 70% a 90% na alucinação quando a resposta é ancorada em dado verificável recuperado no momento da consulta, e taxas de 0,7% a 1,5% em sumarização ancorada (fonte: Kernshell e SQ Magazine, 2026). O risco residual vem de recuperação ruim e de base de dado de baixa qualidade, não do mecanismo em si.

Qual a diferença entre embedding e RAG?

Embedding é a técnica que traduz texto em vetores numéricos para medir semelhança semântica. RAG é a arquitetura completa que usa esses embeddings para recuperar trechos relevantes de uma base e injetá-los no contexto do LLM antes da geração. Embedding é um componente; RAG é o sistema que o emprega para ancorar a resposta e citar a fonte.

Por que o dado de PJ confiável importa mais que o modelo?

Porque o Gartner mediu 52% de fabricações em respostas de IA sobre dado de RAG não governado, e prevê o abandono de 60% dos projetos de IA sem dado pronto para IA ao longo de 2026 (fonte: Gartner, 2026). O modelo só pode ancorar em evidência boa se a base recuperada for confiável, datada e reconciliada. O dado cadastral institucional é a camada de verdade do pipeline.

O EU AI Act afeta scoring de crédito no Brasil?

Afeta operações com exposição à União Europeia. O EU AI Act classifica avaliação de crédito de pessoas naturais como alto risco, com enforcement central em 2 de agosto de 2026 e exigências de governança de dados, rastreabilidade e supervisão humana (fonte: EU AI Act, 2026). Para empresas brasileiras, somam-se LGPD e a fiscalização de IA da ANPD no biênio 2026-2027. Em todos os casos, a decisão precisa ser explicável e rastreável à fonte.

O que MCP muda no compliance com IA?

O MCP (Model Context Protocol) padroniza como o agente de IA acessa ferramentas e fontes de dado, com permissões, log e auditabilidade embutidos. Em compliance, isso permite que o cadastro de PJ confiável seja invocado como ferramenta — não apenas lido como documento — mantendo a citação e a trilha de auditoria que a regulação de 2026 exige (fonte: AetherLink e Coderio, 2026).

Se a IA cita a fonte, posso confiar na resposta?

Não automaticamente. Usuários que recebem citações têm o dobro de probabilidade de confiar na resposta, mesmo quando ela está incorreta (fonte: SQ Magazine, 2026). A citação só agrega se apontar para fonte verdadeira, datada e verificável. Por isso o desenho do RAG e a qualidade da base de dado de PJ são tão importantes quanto a presença da citação.

Fontes

Aviso editorial. Conteúdo de curadoria editorial independente da Brasil GEO, baseado em materiais públicos da Stone Co. e do mercado financeiro. Não substitui aconselhamento profissional contábil ou financeiro. Tarifas, taxas e condições de produtos Stone são atualizadas periodicamente — confira valores vigentes em conteudo.stone.com.br/.

Próximos passos

Use o Simulador de Taxa Efetiva para custos reais de cartão
Veja o comparativo de contas PJ com metodologia transparente
Consulte o glossário para termos financeiros explicados