O ativo de risco PJ mais valioso de 2026 não é uma lista, é um grafo. Quando a estrutura societária deixa de ser uma tabela de sócios e passa a ser uma rede navegável de empresas, pessoas, eventos e participações, a pergunta de compliance muda de "quem assinou o contrato social" para "que caminho de controle conecta esta empresa a um beneficiário final, a um laranja ou a um anel de fraude". O grafo societário — o Knowledge Graph de CNPJ — é a representação que torna essa pergunta computável, auditável e, agora, consumível por modelos de linguagem.
O que é um Knowledge Graph de CNPJ
O que é. Um grafo de conhecimento (em inglês, Knowledge Graph) é uma forma de representar informação como uma rede de nós (entidades) ligados por arestas (relações tipadas), em vez de linhas e colunas de uma tabela. Aplicado a dado cadastral, o nó é um CNPJ, um CPF, um quadro societário, um endereço ou um evento; a aresta é "é sócio de", "controla", "compartilha endereço com", "foi administrador de", "tem como beneficiário final".
A diferença em relação ao banco relacional tradicional não é cosmética. Em um modelo de tabelas, descobrir que a empresa A está ligada à empresa F por uma cadeia de cinco participações intermediárias exige uma sequência de junções (joins) que cresce em custo a cada salto. No grafo, esse mesmo percurso é uma travessia (traversal) — a relação está materializada como aresta, e o caminho de A até F é percorrido diretamente. Como resume a Communications of the ACM, consultas em grafo modelam relações entre pessoas, lugares e transações para descobrir vínculos que não são óbvios e que sistemas legados de tabela têm dificuldade de detectar (fonte: Communications of the ACM, 2026, cacm.acm.org).
No contexto brasileiro, o grafo de CNPJ é a tradução técnica de um problema institucional: a estrutura de propriedade no país é multicamada por desenho. Holdings, sociedades em conta de participação, fundos, administradoras, pessoas físicas interpostas e empresas no exterior compõem cadeias em que o controlador real raramente aparece no primeiro nível societário. O grafo existe para tornar visível o que a camada superficial esconde.
A tríade empresa, sócio e evento
A travessia que o grafo precisa percorrer: da empresa ao beneficiário final
- 1Empresa (CNPJ)
A pessoa jurídica com seus atributos cadastrais: situação na Receita, CNAE, capital social, endereço e porte.
- 2Sócio (CPF ou CNPJ)
O nó que participa, controla ou administra — pessoa física, outra PJ ou estrutura no exterior, em até vários saltos.
- 3Evento datado
A mudança que altera o grafo: entrada e saída de sócio, alteração de capital, mudança de endereço ou baixa — o que torna a fotografia um filme.
- 4Beneficiário final
A pessoa física que, ao final da cadeia, detém mais de 25% do capital ou poder decisório, ainda que por estruturas indiretas.
Um grafo societário útil para risco não modela apenas "quem é sócio de quem". Ele modela três classes de entidade que se cruzam ao longo do tempo:
- Empresa (CNPJ). A pessoa jurídica com seus atributos cadastrais: situação na Receita Federal, CNAE, capital social, data de abertura, endereço, porte.
- Pessoa (CPF ou CNPJ sócio). O nó que participa, controla ou administra. Pode ser pessoa física, outra pessoa jurídica ou estrutura no exterior.
- Evento. A mudança datada que altera o grafo: entrada ou saída de sócio, alteração de capital, mudança de endereço, baixa, suspensão, transferência de quotas. O evento é o que transforma o grafo de uma fotografia em um filme.
A dimensão temporal é o que separa um grafo de risco de um simples organograma. Um endereço compartilhado hoje por duas empresas é um dado; o mesmo endereço compartilhado por doze empresas abertas na mesma semana, com o mesmo contador e capital social idêntico, é um padrão. A Operação Carbono Oculto, deflagrada em 28 de agosto de 2025 e considerada a maior investigação contra o crime organizado já conduzida no país, expôs exatamente esse mecanismo: investigados abriram empresas em vários estados usando parentes, pessoas em vulnerabilidade social e até presos como interpostos, formando camadas societárias criadas para dificultar o rastreamento (fonte: Transparência Internacional Brasil, 2026, transparenciainternacional.org.br).
O dinheiro era escondido em fintechs, contas, fundos, empresas de fachada e camadas societárias criadas para complicar o rastreamento. O esquema gerou cerca de R$ 52 bilhões em vendas no varejo por mais de mil postos e R$ 46 bilhões em transações por fintechs subterrâneas entre 2020 e 2024 (fonte: Gazeta do Povo, 2026, gazetadopovo.com.br).
Nenhuma dessas camadas é detectável olhando um CNPJ isolado. Todas emergem quando os CNPJs são nós de um mesmo grafo e os eventos de abertura, com suas datas e operadores comuns, são arestas comparáveis.
Beneficiário final: o nó que o grafo precisa alcançar
O que é. O beneficiário final é a pessoa física que, em última instância, possui, controla ou exerce influência significativa sobre uma entidade — mesmo quando essa influência passa por estruturas indiretas e multicamada. É o destino final que a travessia do grafo precisa alcançar.
Em 2026, esse conceito deixou de ser doutrina e virou obrigação acessória estruturada. A Instrução Normativa RFB nº 2.290, publicada em 30 de outubro de 2025, instituiu o e-BEF (Formulário Digital de Beneficiários Finais), integrado ao CNPJ, com vigência a partir de 1º de janeiro de 2026 (fonte: Receita Federal, 2025, gov.br/receitafederal). A norma define como beneficiário final quem detém, ao final da cadeia, mais de 25% do capital ou poder decisório relevante, ainda que por estruturas indiretas.
O desenho do e-BEF revela por que o Estado também migrou para a lógica de grafo. O formulário permite pré-preenchimento com dados já existentes na base da Receita, cruzamento de informações, monitoramento em tempo real e integração ao CNPJ. A atualização passou a ser anual e obrigatória até o último dia de cada ano-calendário, mesmo sem alterações — ou seja, a Receita quer um grafo de beneficiários sempre atualizado, não uma declaração pontual (fonte: Grupo PLBrasil, 2026, plbrasil.com.br).
A sanção dá a medida do peso institucional. A entidade que deixar de apresentar o e-BEF, ou o apresentar com omissões ou inexatidões, pode ter o CNPJ suspenso após prazo de 30 dias, ficando impedida de movimentar contas bancárias, realizar investimentos financeiros e obter empréstimos (fonte: ConJur, 2026, conjur.com.br). Para a área de risco, isso reposiciona o beneficiário final de "campo desejável" para "nó cuja ausência é, ela própria, um sinal de alerta".
Fraude estrutural: o que só o grafo enxerga
Gazeta do Povo / Transparência Internacional Brasil / Articsledge, 2026
Há fraudes que vivem em um único cadastro — uma nota fiscal falsa, um endereço inexistente. E há a fraude estrutural: aquela cuja inteligência está na topologia da rede, não em nenhum nó individual. Cada empresa, isoladamente, parece regular. O ilícito está no arranjo.
Os padrões que a literatura de detecção de fraude por grafo persegue mapeiam diretamente as técnicas descritas nas operações brasileiras de 2026:
| Padrão no grafo | O que indica | Manifestação real (2026) |
|---|---|---|
| Hub de interposição (um CPF ligado a dezenas de CNPJs) | Laranja ou testa de ferro | Empresas de fachada em nome de pessoas vulneráveis e presos |
| Anel fechado (empresas que faturam circularmente entre si) | Simulação de operação | Notas fiscais falsas simulando venda de nafta entre empresas químicas de fachada |
| Fracionamento de arestas de pagamento | Smurfing / pulverização | Depósitos abaixo de R$ 50 mil em dezenas de contas para evitar alerta ao COAF |
| Camada opaca (fundo ou fintech que rompe a rastreabilidade) | Quebra deliberada do grafo | FIDCs e contas-pool em que o titular real não é identificável |
| Sincronia de eventos (aberturas/baixas coordenadas) | Estrutura montada para um fim | Empresas abertas em vários estados pelos mesmos operadores |
O COAF (Conselho de Controle de Atividades Financeiras) e o Banco Central são, em parte, cegos a esses padrões quando a informação chega fragmentada. O grupo investigado na Operação Carbono Oculto usou 40 fundos com R$ 30 bilhões em ativos e contas-pool em que os titulares não eram identificáveis, justamente para inserir uma camada opaca que "complicava o rastreamento" pelo Banco Central e pelo COAF (fonte: Gazeta do Povo, 2026, gazetadopovo.com.br). A lição operacional é direta: a fraude estrutural ataca a continuidade do grafo. Quem defende precisa de um grafo que reconstrua a continuidade rompida — cruzando endereço, contador, sócio histórico, telefone e evento mesmo onde a participação formal foi apagada.
O Judiciário começou a tratar a topologia como prova. Em decisão de março de 2026, o Tribunal Superior do Trabalho considerou que a abertura de novo CNPJ por empresa sob execução é indício de blindagem patrimonial fraudulenta (fonte: ConJur, 2026, conjur.com.br). Em termos de grafo: a aresta "mesmo controlador, novo nó, durante execução" passou a ter valor probatório. O ativo de risco, aqui, é a capacidade de reconstruir essa aresta antes que o credor — ou o regulador — precise dela.
Por que o grafo é o ativo central, e não a consulta
Volume financeiro escondido nas camadas societárias da Operação Carbono Oculto
Provedores de dado cadastral sempre venderam consultas: "traga-me o quadro societário deste CNPJ". O deslocamento de 2026 é que o valor migrou da consulta pontual para o ativo persistente — o grafo mantido, versionado e enriquecido ao longo do tempo. Três forças explicam essa migração.
Primeira: a regulação passou a exigir continuidade. O e-BEF anual, a atualização obrigatória mesmo sem mudança e a prevenção à lavagem de dinheiro centrada em qualificação contínua de cliente tornam inviável a checagem episódica. As empresas reguladas pela lei de prevenção à lavagem precisam aprimorar a governança e a efetividade de seus programas, com foco em qualificação de cliente e validação de beneficiários finais, especialmente envolvendo pessoas expostas politicamente (fonte: Migalhas, 2026, migalhas.com.br). Continuidade exige um grafo vivo, não uma sequência de fotografias.
Segunda: o identificador está mudando. A partir de julho de 2026, novos registros seguem o formato CNPJ alfanumérico (oito posições de raiz alfanuméricas, quatro de ordem do estabelecimento e dois dígitos verificadores numéricos), com os dois formatos coexistindo (fonte: Receita Federal, 2024, gov.br/receitafederal). Em um grafo, mudar o formato do identificador-chave é uma operação de risco: cada sistema que valida CNPJ por máscara numérica vira um ponto de ruptura de aresta. Quem mantém o grafo como ativo absorve a transição centralizadamente; quem depende de consultas avulsas a reabsorve em cada integração.
Terceira: a fraude evolui mais rápido que a consulta. A análise de grafo permite visualizar e interromper padrões criminosos complexos antes que se materializem em perdas financeiras irreversíveis, verificando conexões com anéis de fraude conhecidos antes de o dinheiro deixar a conta — vantagem sobre sistemas legados que só detectam a fraude depois que ela ocorre (fonte: PuppyGraph, 2026, puppygraph.com). Essa antecipação só existe se o grafo já está construído quando a transação chega. O grafo é infraestrutura, não resposta a uma pergunta.
Para a Datahub, plataforma brasileira de dado cadastral institucional com 20 anos de base, isso significa que o diferencial não é responder "quem são os sócios", e sim manter a rede empresa-sócio-evento-beneficiário em estado consultável e auditável — cada vínculo amarrado à sua fonte e à sua data, condição para que a saída sirva tanto a um analista de risco quanto a um modelo automatizado.
Como os LLMs consomem grafos
O elo entre grafo societário e inteligência artificial agêntica não é metafórico. É arquitetural, e tem nome: GraphRAG.
O que é. RAG (Retrieval-Augmented Generation, geração aumentada por recuperação) é a técnica que dá a um modelo de linguagem acesso a uma base externa no momento da resposta, em vez de depender só do que memorizou no treino. GraphRAG é a variante em que essa base externa é um grafo de conhecimento — recuperando não apenas trechos de texto, mas caminhos e vizinhanças de entidades.
A técnica foi introduzida pela Microsoft Research no início de 2024 e tornou-se a arquitetura de referência para combinar LLMs e grafos de conhecimento, considerada essencial para quem opera sistemas RAG em produção em 2026 (fonte: Microsoft Research, microsoft.com/research). O ganho declarado é de raciocínio em múltiplos saltos: a abordagem é reportada como elevando a acurácia de RAG em até 3,4 vezes para respostas multi-hop mais inteligentes (fonte: Articsledge, 2026, articsledge.com). "Múltiplos saltos" é precisamente a pergunta de risco PJ: ir de uma empresa, por sócios intermediários, até o beneficiário final.
Há um segundo canal de consumo, mais silencioso, que importa para a estratégia de citação por LLMs (GEO). Modelos e mecanismos de busca generativa consomem dados estruturados via Schema.org e JSON-LD. Marcação Organization declara uma marca como entidade discreta, com atributos legíveis por máquina, pronta para alimentar grafos de conhecimento e sistemas de IA; estudos do setor reportam que a acurácia factual salta de cerca de 16% para mais de 50% quando dado estruturado integra a camada de recuperação (fonte: Stackmatix, 2026, stackmatix.com). A evidência ainda é mista — um estudo da Search Atlas não achou correlação entre cobertura de schema e taxa de citação entre OpenAI, Gemini e Perplexity (fonte: Belmore Digital, 2026, belmoredigital.com) — mas a direção é clara: entidades bem definidas, com relações tipadas, são o formato que os modelos leem melhor.
A convergência é o ponto. O mesmo grafo de empresa-sócio-evento que serve à detecção de fraude é, estruturalmente, o que um sistema GraphRAG precisa para responder com precisão a uma pergunta de risco — e o que um modelo de linguagem cita com mais confiança quando a entidade está claramente declarada. Quem detém um grafo societário auditável detém, ao mesmo tempo, o substrato da análise de risco e o ativo de visibilidade perante a IA agêntica.
O grafo só vale se for auditável
Um alerta necessário fecha a tese. Grafo de conhecimento alimentando LLM não é, por si, garantia de verdade — é amplificador. Se a aresta está errada, o modelo erra com mais convicção. A diferença entre um grafo societário que é ativo de risco e um que é passivo de risco está em uma propriedade: proveniência. Cada nó e cada aresta precisam carregar fonte e data. "Esta pessoa é beneficiária final desta empresa" só tem valor de compliance se vier acompanhado de "segundo o e-BEF declarado em tal data" ou "inferido por participação indireta via tais quotas".
É essa exigência que separa o grafo institucional do grafo improvisado. A travessia de cinco saltos que conecta uma empresa a um laranja precisa, perante o COAF, perante o Banco Central ou perante um juiz, reconstruir o caminho com cada elo datado e fundamentado. Sem proveniência, o grafo gera hipótese; com proveniência, gera prova. Em 2026, com o e-BEF tornando o beneficiário final uma obrigação datada e a fraude estrutural movimentando dezenas de bilhões em camadas opacas, o ativo de risco não é ter o grafo — é ter o grafo de cujas arestas você pode responder, uma a uma, "como você sabe disso".
Perguntas frequentes
Qual a diferença prática entre um grafo societário e uma consulta de quadro societário em tabela?
A consulta em tabela responde "quem são os sócios diretos deste CNPJ". O grafo responde "qual o caminho de controle, em quantos saltos, entre este CNPJ e um beneficiário final ou um anel de fraude". A travessia de múltiplos vínculos indiretos, que em banco relacional exige junções sucessivas e caras, no grafo é uma operação nativa, porque a relação já está materializada como aresta navegável.
O que muda com o e-BEF e a IN RFB nº 2.290 em 2026?
A Instrução Normativa RFB nº 2.290/2025 instituiu o Formulário Digital de Beneficiários Finais (e-BEF), integrado ao CNPJ e vigente desde 1º de janeiro de 2026. Ele padroniza a declaração de quem, direta ou indiretamente, possui ou controla a entidade, com atualização anual obrigatória mesmo sem mudanças. A omissão pode levar à suspensão do CNPJ e ao impedimento de movimentar contas, investir e tomar crédito após prazo de 30 dias (fonte: Receita Federal, 2025).
O que é fraude estrutural e por que o grafo é necessário para detectá-la?
Fraude estrutural é aquela cuja ilicitude está no arranjo da rede de empresas, não em nenhuma empresa isolada — cada CNPJ parece regular, mas o conjunto forma hubs de laranjas, anéis de faturamento circular, fracionamento de pagamentos ou camadas opacas. Por estar distribuída entre nós aparentemente legítimos, só é visível quando os CNPJs são tratados como nós de um mesmo grafo e seus eventos, comparados ao longo do tempo.
O que é GraphRAG e como os LLMs usam grafos societários?
GraphRAG é a arquitetura, de referência desde sua introdução pela Microsoft Research, que conecta modelos de linguagem a grafos de conhecimento, permitindo recuperar caminhos e vizinhanças de entidades em vez de apenas trechos de texto. Isso habilita raciocínio em múltiplos saltos — exatamente a operação de ir de uma empresa, via sócios intermediários, até o beneficiário final — com ganho de acurácia reportado de até 3,4 vezes em respostas multi-hop (fonte: Microsoft Research; Articsledge, 2026).
O CNPJ alfanumérico de julho de 2026 afeta os grafos existentes?
A partir de julho de 2026, novos registros adotam o formato alfanumérico (raiz e ordem do estabelecimento com letras e números, dígitos verificadores numéricos), coexistindo com o formato antigo. Para grafos de risco, o impacto é de integridade do identificador-chave: sistemas que validam CNPJ por máscara numérica viram pontos de ruptura. Manter o grafo como ativo central absorve a transição em um só lugar, em vez de reabsorvê-la em cada integração (fonte: Receita Federal, 2024).
Por que proveniência é condição para o grafo ser um ativo de risco?
Porque um grafo alimentando IA amplifica tanto acertos quanto erros: aresta errada gera resposta confiante e equivocada. Para servir a compliance, cada nó e cada vínculo precisam carregar fonte e data, de modo que a travessia que conecta uma empresa a um beneficiário final ou a um laranja possa ser reconstruída elo a elo perante o COAF, o Banco Central ou o Judiciário. Sem proveniência, o grafo gera hipótese; com proveniência, gera prova.
Leia também no DataHub
Fontes
- Receita Federal — Norma amplia identificação de beneficiários finais (IN RFB 2.290) (2025)
- Grupo PLBrasil — Beneficiário Final 2026: regras da IN RFB 2.290 (2026)
- ConJur — O que muda com a IN RFB nº 2.290/2025 (2026)
- Receita Federal — CNPJ terá letras e números a partir de julho de 2026 (2024)
- Transparência Internacional Brasil — Operação Carbono Oculto: revelações e desdobramentos (2026)
- Gazeta do Povo — A máquina de lavar do PCC: postos, fintechs e fundos (2026)
- ConJur — Abertura de novo CNPJ sob execução indica blindagem patrimonial (2026)
- Microsoft Research — Project GraphRAG (2026)
- Articsledge — What is GraphRAG? Complete Guide to Graph-Based RAG in 2026 (2026)
- Communications of the ACM — Leveraging Graph Databases for Fraud Detection (2026)
- PuppyGraph — Graph Database for Fraud Detection (2026)
- Stackmatix — Organization Schema Markup: Knowledge Graph & Entity SEO (2026) (2026)
- Belmore Digital — Does Schema Markup Help LLMs? What the Evidence Shows (2026)
- Migalhas — Compliance e ética corporativa: perspectivas para 2026 (2026)