Pergunte a um modelo de linguagem genérico quem controla uma empresa e ele responderá com confiança. Às vezes certo, às vezes inventado. Em compliance, uma resposta inventada sobre beneficiário final não é um deslize. É um risco regulatório com nome e CNPJ.

RAG sobre o grafo societário de CNPJ resolve isso ao ancorar cada resposta em dado verificável, com fonte e data, em vez de deixar o modelo adivinhar. A tese é simples: o modelo não deve saber a resposta de cor, deve buscá-la no grafo e citá-la. Quando a evidência não existe, a resposta correta é abster-se.

O que é RAG sobre grafo societário

RAG, ou geração aumentada por recuperação, é a técnica em que o modelo primeiro busca trechos relevantes em uma base externa e só então gera a resposta a partir deles. Sobre o grafo societário de CNPJ, a base externa é a rede de empresas, sócios e participações, e a recuperação navega vínculos em vez de só casar palavras.

O grafo é o que diferencia esse RAG de um RAG de texto comum. Beneficiário final raramente está em uma frase pronta. Está numa cadeia: a PJ A é controlada pela PJ B, que tem como sócia a pessoa C. Responder exige percorrer arestas, não apenas recuperar parágrafos.

A relevância prática é alta em 2026. Com quase 9 milhões de empresas inadimplentes (Serasa Experian, abr/2026) e a reforma tributária aumentando a transparência fiscal a partir do teste de CBS e IBS em 2026, perguntas de compliance sobre quem está por trás de uma PJ ficaram mais frequentes e mais consequentes.

Por que o grafo importa em compliance de PJ

Serasa Experian e Receita Federal, 2026

O grafo importa porque risco de PJ é, quase sempre, risco de relação: laranjas, empresas de fachada, beneficiário final oculto e estruturas em cascata só aparecem quando se enxerga a rede, não a empresa isolada. Uma consulta cadastral plana vê um CNPJ regular; o grafo revela que ele se conecta a um sócio sancionado três níveis acima.

Sobre o grafo, perguntas de compliance que eram caras viram navegáveis:

  • Beneficiário final. Quem, ao fim da cadeia, controla a PJ de fato.
  • Conflito e vínculo. Se um fornecedor se conecta a um sócio do comprador.
  • Contaminação por sanção. Se algum elo da cadeia consta em lista restritiva ou PEP.
  • Padrão de fachada. Se a estrutura societária tem sinais de empresa criada para ocultar.

Sem o grafo, esse trabalho é manual, lento e propenso a erro. Com o grafo e RAG, a resposta vem fundamentada e rastreável, pronta para entrar numa decisão de onboarding ou de due diligence.

O pipeline RAG ponta a ponta

Pipeline RAG sobre grafo de CNPJ: resposta com fonte, sem alucinação

Ver descrição do fluxo
  1. Pergunta de compliance — Quem controla esta PJ ao fim da cadeia?
  2. Recuperação no grafo — sócios, participações e vínculos do CNPJ
  3. Montagem de contexto — trechos com fonte e data anexadas
  4. Geração ancorada — resposta usa só o contexto e cita a origem
  5. Evidência é suficiente?
  6. Sim: Responder com fonte e trilha
  7. Não: Abster-se e escalar ao humano
DataHub, 2026

O pipeline RAG sobre grafo de CNPJ tem quatro etapas: recuperação no grafo, montagem de contexto com procedência, geração ancorada e verificação de suficiência de evidência. A última etapa é a que evita alucinação, porque autoriza o sistema a não responder quando a base não sustenta a afirmação.

Na recuperação, a pergunta dispara uma travessia do grafo: sócios, participações e vínculos relevantes ao redor do CNPJ alvo. Na montagem de contexto, cada nó e aresta recuperados entram com fonte e data, formando o material que o modelo poderá usar. Na geração, o modelo redige a resposta usando apenas esse material e cita os trechos que a sustentam.

Na verificação, o sistema confere se há evidência suficiente para cada afirmação. Se há, responde com fonte. Se não há, abstém-se e escala para revisão humana. Essa etapa final é o que transforma um gerador de texto plausível em uma ferramenta de compliance defensável.

Como evitar alucinação com citação obrigatória

Alucinação se evita tornando a citação obrigatória e restringindo o modelo ao contexto recuperado: nenhuma afirmação de compliance pode sair sem o trecho do grafo que a sustenta. O modelo deixa de ser fonte de conhecimento e passa a ser redator de evidência que outro componente recuperou e verificou.

O direito do titular reforça a exigência de critério explícito e auditável.

O controlador deverá fornecer, sempre que solicitadas, informações claras e adequadas a respeito dos critérios e dos procedimentos utilizados para a decisão automatizada, observados os segredos comercial e industrial. (Lei Geral de Proteção de Dados, Lei 13.709/2018, Art. 20, parágrafo 1)

Três salvaguardas tornam isso operacional. Primeira, restrição ao contexto: o modelo só usa o que foi recuperado. Segunda, citação por afirmação: cada conclusão aponta para o nó ou aresta de origem. Terceira, abstenção: diante de evidência insuficiente, o sistema declara que não sabe, em vez de preencher a lacuna com texto convincente e falso.

Governança, qualidade do dado e supervisão humana

A governança de um RAG de compliance começa antes do modelo, na qualidade do grafo: dado desatualizado ou incompleto gera resposta ancorada em fonte errada, o que é pior que não responder, porque vem com aparência de rigor. Procedência, data e cobertura do grafo são a fundação de tudo.

A supervisão humana entra em dois pontos. No primeiro, revisa as respostas em que a evidência é parcial ou o impacto é alto, como classificar uma PJ como provável fachada. No segundo, audita amostras de respostas afirmativas para garantir que a citação realmente sustenta a conclusão, e não apenas a acompanha.

Explicabilidade fecha o circuito. Como a IA agêntica está virando infraestrutura central das operações (Gartner, IDC, McKinsey, 2025-2026), agentes passarão a consumir essas respostas em cadeia. Cada resposta precisa carregar sua trilha, para que um humano reconstrua, depois, por que o sistema concluiu o que concluiu. Compliance sem trilha não se defende perante a ANPD nem perante o cliente.

RAG sobre grafo contra busca tradicional

RAG sobre grafo não substitui a busca cadastral; ele a supera nas perguntas de relação, onde a busca plana falha. A tabela contrasta os dois para o tipo de pergunta que o compliance de PJ faz no dia a dia.

DimensãoBusca cadastral tradicionalRAG sobre grafo societário
UnidadeCNPJ isoladoRede de empresas, sócios e vínculos
Pergunta típicaA PJ existe e está regular?Quem controla a PJ ao fim da cadeia?
RespostaCampos de cadastroConclusão fundamentada com citação
Risco de alucinaçãoBaixo, mas sem sínteseControlado por citação e abstenção
AuditabilidadeRegistro da consultaTrilha de evidência por afirmação

A busca tradicional continua útil para verificação direta. O RAG sobre grafo é o que responde às perguntas de relação que definem fraude e beneficiário final, com fundamentação que um auditor aceita.

A explicabilidade da resposta é o que permite ao humano confiar sem verificar tudo de novo. Quando cada conclusão aponta para o vínculo exato que a sustenta, o revisor confere a cadeia em segundos, em vez de reconstruir a análise do zero. Esse é o ganho prático do RAG sobre grafo bem feito: ele não substitui o julgamento, acelera-o e o documenta.

Qualidade e construção do grafo de CNPJ

A qualidade do RAG depende, antes de tudo, da qualidade do grafo: cobertura dos vínculos, atualização dos dados e procedência de cada nó e aresta. Um grafo incompleto produz respostas confiantes e erradas, o pior resultado possível em compliance, porque o erro vem com aparência de fundamentação.

A construção do grafo parte de fontes oficiais e públicas. O cadastro de CNPJ da Receita Federal fornece o esqueleto de empresas e sócios; dados societários, judiciais e de listas restritivas adicionam as arestas de risco. Cada vínculo entra com data e origem, para que a resposta gerada possa citar não só o fato, mas quando e de onde ele veio.

A atualização é tão crítica quanto a cobertura. Quadro societário muda, empresas abrem e fecham, sanções entram e saem de listas. Um grafo estático envelhece e passa a ancorar respostas em uma realidade que já não existe. A disciplina de atualização contínua é o que mantém a confiabilidade ao longo do tempo, especialmente em um ano de quase 9 milhões de empresas inadimplentes (Serasa Experian, abr/2026), quando o quadro de risco se move rápido.

A resolução de entidade é o desafio técnico central. A mesma pessoa ou empresa aparece com grafias e identificadores diferentes entre fontes, e juntar registros errados cria vínculos falsos, enquanto separá-los demais perde conexões reais. A qualidade dessa resolução define se o grafo revela o beneficiário final correto ou um vínculo inexistente.

A camada de metadados sustenta a citação. Para que o RAG responda com fonte, cada elemento do grafo precisa carregar sua procedência de forma estruturada. Sem metadados de origem, o sistema até recupera o vínculo, mas não consegue citar de onde ele veio, e a resposta perde o que a torna defensável perante a ANPD e o cliente.

A governança do dado fecha o ciclo. Qualidade não é estado, é processo: medir cobertura, monitorar atualização, auditar amostras de vínculos e corrigir erros de resolução de entidade. É esse processo que transforma um grafo em fundação confiável para respostas de compliance, em vez de uma rede bonita que ninguém deveria usar para decidir.

Perguntas de compliance que o grafo responde

O grafo societário de CNPJ responde, com fonte, às perguntas de compliance que a consulta cadastral plana não alcança: quem controla de fato, quem se beneficia, quem se conecta a risco e onde há padrão de ocultação. São perguntas de relação, e relação é exatamente o que o grafo modela.

A primeira pergunta é de controle. Beneficiário final raramente aparece no primeiro nível; está numa cadeia de participações que pode atravessar várias PJ. O RAG sobre grafo percorre essa cadeia e devolve a resposta com a trilha de vínculos que a sustenta, em vez de um campo cadastral que só mostra o sócio imediato.

A segunda é de conflito. Saber se um fornecedor se conecta a um sócio do comprador, ou se duas partes de uma transação compartilham controlador, é decisivo em due diligence e em prevenção a fraude. O grafo revela o vínculo que cada cadastro isolado esconde, e o RAG o explica em linguagem auditável.

A terceira é de contaminação por risco. Se algum elo da cadeia consta em lista de sanções, PEP ou impeditivo, a PJ alvo herda parte desse risco mesmo estando, ela própria, regular. Com o COAF reforçando a vigilância sobre lavagem de dinheiro, mapear essa contaminação virou parte central do PLD-FT das instituições.

A quarta é de padrão de fachada. Estruturas criadas para ocultar costumam deixar rastros na topologia: sócios em comum entre muitas empresas recém-abertas, endereços repetidos, cadeias circulares. O grafo torna esses padrões visíveis, e o RAG os descreve com a evidência anexada, transformando suspeita difusa em achado fundamentado. Num ambiente de quase 9 milhões de empresas inadimplentes (Serasa Experian, abr/2026), separar PJ real de PJ de papel é o que protege a carteira.

Métricas de qualidade do RAG de compliance

A qualidade de um RAG de compliance se mede por quatro indicadores: fidelidade à fonte, taxa de abstenção apropriada, cobertura das perguntas e precisão da recuperação. Acurácia genérica não basta, porque o que importa é se cada afirmação está de fato ancorada na evidência citada e se o sistema cala quando deveria.

A fidelidade à fonte mede se a resposta diz apenas o que os trechos recuperados sustentam, sem extrapolar. É a métrica que combate a alucinação na raiz: uma resposta pode estar correta por acaso e ainda assim ser infiel, se afirmou algo que a evidência não suporta. Auditar fidelidade por amostragem é prática obrigatória.

A abstenção apropriada mede se o sistema se recusa a responder quando falta evidência, em vez de preencher a lacuna com texto convincente. Um RAG que nunca se abstém é suspeito: em compliance, com quase 9 milhões de empresas inadimplentes em 2026 (Serasa Experian, abr/2026) e estruturas de fachada deliberadamente opacas, há perguntas que o grafo simplesmente não responde, e admitir isso é a resposta certa.

A cobertura mede que fração das perguntas relevantes o sistema consegue responder com fundamentação. Baixa cobertura aponta para grafo incompleto ou recuperação fraca, não para um modelo ruim. Separar os dois diagnósticos evita ajustar o modelo quando o problema está no dado, erro comum que desperdiça esforço.

A precisão da recuperação mede se os trechos trazidos do grafo são de fato os relevantes para a pergunta. Recuperação ruim contamina tudo a jusante: o modelo gera sobre material errado e cita fonte que não responde. Como o direito do titular exige critérios claros sobre a decisão automatizada, conforme o Art. 20 da LGPD, recuperar a evidência certa é parte da própria conformidade.

Essas métricas formam um painel, não um número único. Um RAG com alta fidelidade mas baixa cobertura é confiável e limitado; um com alta cobertura mas baixa abstenção é amplo e perigoso. A leitura conjunta é o que orienta onde investir, no grafo, na recuperação ou na geração, e o que sustenta a confiança de quem decide a partir das respostas.

Limites do método e quando não usar

RAG sobre grafo não é solução universal: ele falha quando o grafo está incompleto ou desatualizado, quando a pergunta não é de relação e quando a resposta exige julgamento que nenhuma evidência sozinha resolve. Reconhecer esses limites é parte de usar o método com responsabilidade, e não como caixa-preta que dispensa o analista.

O primeiro limite é a cobertura do dado. Se um vínculo relevante não está no grafo, o RAG não o inventa, e deve se abster. Isso é uma virtude, não um defeito, mas exige que a empresa conheça a cobertura real da sua base e não confunda ausência de evidência com evidência de ausência. Procedência e atualização do grafo são pré-condição.

O segundo limite é o tipo de pergunta. Para verificação direta, como a situação cadastral de um único CNPJ, a busca tradicional é mais simples e barata. O grafo brilha nas perguntas de relação; usá-lo para tudo é desperdício de complexidade. A boa arquitetura combina busca cadastral e RAG sobre grafo, cada um onde rende mais.

O terceiro limite é o julgamento. Classificar uma PJ como provável fachada ou recusar uma relação é decisão de alto impacto que afeta direitos do titular, protegidos pelo Art. 20 da LGPD. O RAG fundamenta, mas não substitui o humano nessas decisões. Ele entrega evidência e abstém-se quando ela falta; a conclusão sensível permanece sob supervisão humana e explicável.

O quarto limite é a confiança excessiva. Como a IA agêntica vira infraestrutura central das operações (Gartner, IDC, McKinsey, 2025-2026), agentes consumirão essas respostas em cadeia, e um erro ancorado em fonte desatualizada se propaga com aparência de rigor. A auditoria por amostragem das respostas afirmativas é a salvaguarda contra esse efeito de propagação.

Roteiro para implantar em 2026

O roteiro para implantar RAG sobre grafo de CNPJ começa por garantir a qualidade e a procedência do grafo, define um conjunto fechado de perguntas de compliance de alto valor e só então liga o modelo, sempre com citação obrigatória e abstenção. Ampliar o escopo das perguntas vem depois de provar precisão nas primeiras.

Estabeleça uma régua de aceitação: uma resposta só é boa se a citação sustenta cada afirmação e se o sistema se abstém quando deveria. Mantenha a supervisão humana nos casos de alto impacto e audite amostras continuamente. Meça duas taxas que importam: alucinação residual e abstenção apropriada.

O resultado é compliance que escala sem perder rigor. Em vez de um analista percorrendo o grafo à mão ou um modelo inventando vínculos, a empresa ganha respostas fundamentadas, com fonte, prontas para decisão e para auditoria. Essa é a diferença entre usar IA em compliance e confiar cegamente nela.

Leia também no DataHub

Fontes

  1. Serasa Experian - Inadimplência das empresas (2026)
  2. Receita Federal - Cadastro Nacional da Pessoa Jurídica (CNPJ) (2026)
  3. Lei Geral de Proteção de Dados (Lei 13.709/2018) (2018)
  4. ANPD - Decisões automatizadas e tratamento de dados (2026)
  5. Gartner - Knowledge Graphs and RAG (2026)
  6. McKinsey - The state of AI (2026)
  7. COAF - Prevenção à lavagem de dinheiro (2026)
Aviso editorial. Conteúdo de curadoria editorial independente da Brasil GEO, baseado em materiais públicos da Stone Co. e do mercado financeiro. Não substitui aconselhamento profissional contábil ou financeiro. Tarifas, taxas e condições de produtos Stone são atualizadas periodicamente — confira valores vigentes em conteudo.stone.com.br/.

Próximos passos