Panorama de mercado
GraphRAG ancorado em redes de CNPJ é a evolução do RAG tradicional que troca a busca por trechos parecidos pela navegação em um grafo de empresas, sócios e cadeias de controle. Em risco de pessoa jurídica, a informação crítica não mora no texto de cada cadastro isolado, mora nas conexões entre entidades: quem controla quem, qual sócio aparece em quantas empresas, qual cluster compartilha endereço. Quando a DataHub recupera esse contexto sobre uma base de mais de 70 milhões de CNPJs com quadro societário (QSA), ela devolve respostas conectadas e explicáveis que o RAG plano não alcança, e é esse o tipo de resposta que o regulador passou a exigir em 2026 e que vira norma em 2027.
A tese em uma frase
RAG recupera documentos. GraphRAG recupera relacionamentos. No crédito e na prevenção à fraude PJ, onde o que decide o risco é a estrutura societária e não o parágrafo de um relatório, recuperar relacionamento é a diferença entre uma decisão opaca e uma reconstruível. A DataHub entrega essa capacidade como uma API de risco PJ ancorada na rede de CNPJs, para que o motor de decisão do cliente raciocine sobre o grafo, e não apenas sobre o texto.
RAG responde "o que os documentos dizem sobre esta empresa". GraphRAG responde "a que esta empresa está ligada, por quais caminhos, e por que isso importa para o risco". São perguntas diferentes, e o crédito PJ vive na segunda.
O que o RAG tradicional resolve, e onde ele para
Retrieval-Augmented Generation (RAG) virou o padrão para usar modelos de linguagem em cenários corporativos. Documentos são indexados, em geral com embeddings vetoriais, e a cada pergunta o sistema recupera os trechos mais parecidos para compor o contexto do modelo. A resposta fica ancorada em fonte concreta, o que reduz alucinação [fonte: dossiê técnico DataHub, Tendências B2B 2027].
O limite aparece quando o problema deixa de ser "achar o documento certo" e passa a ser "entender a estrutura". Técnicas de busca por similaridade, sem estrutura explícita, falham em perguntas de múltiplos saltos. Considere o que um diretor de risco precisa responder antes de aprovar um limite:
- Este CNPJ está indiretamente ligado a empresas sancionadas por meio de sócios em comum?
- Quem é o beneficiário final no fim da cadeia de controle, atravessando holdings e sócios pessoa jurídica?
- Quais empresas deste cluster compartilham padrão de comportamento, endereço ou sócio que sugira fachada coordenada?
Nenhuma dessas perguntas se responde lendo o cadastro de uma empresa isolada. A resposta está nas arestas entre os nós, e o RAG plano não enxerga arestas. É aqui que a evolução para GraphRAG deixa de ser refinamento técnico e vira requisito de domínio.
Aplicação DataHub
Como funciona na prática, dentro da API da DataHub
A entrega principal da DataHub é uma API de risco PJ ancorada no grafo de CNPJ: o cliente envia um CNPJ ou uma pergunta e recebe não só atributos cadastrais, mas o contexto relacional recuperado do grafo, com a trilha que sustenta cada conclusão. O fluxo segue três camadas.
- Grafo ancorado na base. Mais de 70 milhões de CNPJs com quadro societário (QSA) viram nós e arestas: participação, controle, administração, endereço e vínculo entre empresas. Esse grafo é o substrato que o RAG plano não possui.
- Recuperação por subgrafo. Diante de uma pergunta de múltiplos saltos, a recuperação seleciona o subgrafo relevante (vizinhança societária, cadeia de controle, cluster com sinais compartilhados) em vez de trechos soltos.
- Geração explicável. O modelo raciocina sobre o subgrafo e devolve o caminho explícito: quais nós, quais arestas, qual a fonte de cada vínculo. A decisão nasce reconstruível.
O grafo não é consultado uma vez no onboarding e esquecido: a transição do KYC pontual para o KYC perpétuo troca a validação de momento pelo monitoramento contínuo, e quando um sócio novo entra ou um cluster se forma, o grafo muda e o risco é recalculado [fonte: dossiê técnico DataHub, Tendências B2B 2027].
Um exemplo de múltiplos saltos
Um analista decide um limite para a empresa Alfa. A consulta plana retorna CNPJ ativo, QSA com dois sócios, sem restrições diretas, e aprovaria. A consulta sobre o grafo conta outra história: o sócio de Alfa administra a empresa Beta; Beta tem como sócia a holding Gama; Gama compartilha endereço e contador com três empresas inaptas na Receita. O caminho de arestas, de Alfa até o cluster suspeito, é a resposta, e é auditável. Esse é o salto que só o grafo entrega.
Por que a rede de CNPJ é o substrato certo
No Brasil, a estrutura societária é o documento de identidade do risco PJ. Uma empresa é um nó em uma rede densa de participações, administrações e controles que sobe até a pessoa física que de fato manda. O beneficiário final, quem em última instância controla o negócio, raramente aparece no primeiro nível do quadro societário: está a dois, três ou quatro saltos, atrás de holdings e sócios pessoa jurídica.
A própria Receita Federal institucionalizou essa lógica. A Instrução Normativa RFB nº 2.290/2025 criou o Formulário Digital de Beneficiários Finais (e-BEF) integrado ao CNPJ, exigindo que empresas com sócio pessoa jurídica no quadro societário informem quem está no fim da cadeia, com atualização anual [fonte: Receita Federal, 2025]. O regulador, na prática, está pedindo um grafo: a cadeia de controle até a raiz.
Posicionamento competitivo: por que isso é defensável
Os bureaus de escala dominam pela base histórica e pela marca, mas o legado é vantagem e limite ao mesmo tempo: difícil de deslocar, lento para compor soluções de nicho. A DataHub não disputa por volume de dado bruto, disputa por composição, costurando curadoria, verificação, enriquecimento e explicabilidade numa camada que os concorrentes de escala consideram custosa demais para construir sob medida [fonte: dossiê executivo DataHub, ICPs 2026-2027].
Ancorar a recuperação em grafos de CNPJ é onde a DataHub constrói defensabilidade técnica que os concorrentes de escala não replicam rápido. O risco competitivo é ser tratada como fornecedora substituível de dado bruto; a defesa é a profundidade da trilha de auditoria e a aderência regulatória embutida. GraphRAG transforma a base de CNPJ com QSA de um catálogo de registros em um motor de raciocínio relacional, difícil de copiar com tempo e capital, porque o valor está na qualidade das arestas, não na contagem dos nós.
Dados e provas
O que é GraphRAG, definição em uma frase
GraphRAG é a arquitetura que integra um grafo de conhecimento à camada de recuperação e raciocínio do RAG, de modo que o modelo recupere não apenas trechos parecidos, mas subgrafos de entidades e relações relevantes, produzindo respostas conectadas e explicáveis em domínios de estrutura relacional complexa [fonte: Microsoft Research, 2024].
GraphRAG em rede de CNPJ vs RAG plano
| Dimensão | RAG tradicional (vetorial) | GraphRAG em rede de CNPJ |
|---|---|---|
| Unidade recuperada | Trechos de texto por similaridade | Subgrafo de entidades e relações |
| Pergunta que responde bem | O que os documentos dizem sobre X | A que X está ligado e por quais caminhos |
| Múltiplos saltos | Fraco: cada trecho é isolado | Nativo: percorre cadeia societária |
| Beneficiário final oculto | Só se estiver escrito num texto | Resolvido percorrendo o controle até a pessoa física |
| Explicabilidade | Cita o trecho de origem | Mostra o caminho de nós e arestas que sustenta a resposta |
| Detecção de cluster de fachada | Não expõe coordenação entre empresas | Expõe sócio, endereço e padrão compartilhados |
As provas de mercado e regulação (2025-2026)
Os números a seguir ancoram a tese de que o risco PJ explicável vira premissa em 2027, cada um com fonte e ano:
- 3,1 milhões de comunicações de operações suspeitas ao COAF em 2025, recorde e alta de 20% sobre 2024, cada uma exigindo fundamento rastreável [fonte: Conjur, 2026].
- Cerca de R$ 26 bilhões movimentados entre 2022 e 2024 por seis fintechs miradas na Operação Carbono Oculto, que expôs empresas de fachada em nome de laranjas e contas-bolsão [fonte: Estadão Mato Grosso, 2026].
- Crédito concedido por fintechs de R$ 35,5 bilhões, alta de 68% sobre o ano anterior, ampliando a superfície de decisão de risco PJ [fonte: dossiê executivo DataHub, ICPs 2026-2027].
- e-BEF integrado ao CNPJ pela IN RFB nº 2.290/2025, exigindo a cadeia de controle até o beneficiário final com atualização anual [fonte: Receita Federal, 2025].
Explicabilidade: a decisão de crédito que se reconstrói
A força decisiva do GraphRAG em risco PJ não é só achar a conexão escondida, é poder mostrar o caminho. Quando o regulador, o cliente final ou um juiz pergunta por que o crédito foi negado, a resposta precisa ser reconstruível passo a passo. Em 2026, quem antes comprava um score passou a comprar uma decisão acompanhada de trilha de auditoria [fonte: dossiê executivo DataHub, ICPs 2026-2027].
O RAG plano oferece como justificativa um trecho de texto. O GraphRAG oferece o subgrafo: esta empresa foi sinalizada porque o sócio A, que também controla a empresa B sancionada, aparece como administrador a dois saltos, por este caminho explícito de arestas. A explicação não é opinião do modelo, é a topologia do grafo tornada visível. A Resolução Conjunta nº 16/2025 (BCB/CMN) fixou que controles de KYC e PLD/FT permanecem responsabilidade do prestador na cadeia de Banking as a Service, sem diluição [fonte: dossiê executivo DataHub, ICPs 2026-2027].
Por que 2027 é o ponto de inflexão
Três vetores convergem para fazer de 2027 o ano em que o GraphRAG sobre rede de CNPJ deixa de ser diferencial e vira premissa. O primeiro é regulatório: o e-BEF, a Resolução Conjunta 16/2025 e a fiscalização do COAF cobram, na prática, raciocínio sobre cadeia de controle, não consulta a registro isolado. O segundo é tecnológico: a IA agêntica madura faz das plataformas de dados ferramentas que agentes acionam, e um agente só raciocina bem sobre risco PJ se a ferramenta lhe entregar o grafo, não um parágrafo. O terceiro é de mercado: o KYC perpétuo torna o monitoramento contínuo sobre a rede a forma padrão de operar risco [fonte: dossiê técnico DataHub, Tendências B2B 2027].
A leitura para data science, risco e compliance é direta: em 2026, ancorar a recuperação em grafos de CNPJ ainda é vantagem de quem chega primeiro; em 2027, será o piso de uma decisão de crédito reconstruível. A conversa com a DataHub começa por aí: ancorar o seu motor de decisão de risco PJ na rede de CNPJ com QSA, via API, e transformar cada negativa em uma resposta que sobrevive ao escrutínio.
Leia também no DataHub
Fontes
- DataHub, dossiê executivo, ICPs e mercado de dados B2B no Brasil 2026-2027 (síntese de pesquisa) (2026)
- DataHub, dossiê técnico, Tendências B2B 2027: IA agêntica, MCP, GraphRAG com CNPJ, dados alternativos e KYC perpétuo (2026)
- Receita Federal, IN RFB nº 2.290/2025, Formulário Digital de Beneficiários Finais (e-BEF) integrado ao CNPJ (2025)
- Conjur, COAF produz mais RIFs em 2025 e tem recorde de comunicações suspeitas (2026)
- Estadão Mato Grosso, fintechs suspeitas no esquema do PCC movimentaram R$ 26 bilhões (Operação Carbono Oculto) (2026)
- Brasil 247, Operação Carbono Oculto mira fintechs e máfia do nafta ligadas ao PCC (2025)
- Microsoft Research, GraphRAG: combinando grafos de conhecimento e geração aumentada por recuperação (2024)