Inteligência de decisão (decision intelligence) é a disciplina que transforma dado cadastral e transacional em decisões automatizadas, auditáveis e rastreáveis. Este glossário define os 15 termos que estruturam o uso de IA sobre dados de risco PJ no Brasil em 2026 — de MCP e RAG a AI System Card e explicabilidade (XAI) — com a relação de cada um com compliance, fraude e crédito. Se você precisa de uma referência única antes de aprovar um projeto de dados com IA, comece por aqui.
Por que este vocabulário importa agora
COAF/Conjur, Receita Federal e Digital Applied, 2026
Dois movimentos de 2026 tornaram esses termos obrigatórios para qualquer diretor de risco, compliance ou dados. O primeiro é criminal e regulatório. A Operação Carbono Oculto, deflagrada em 28 de agosto de 2025 pela Receita Federal, pelo Ministério Público de São Paulo e órgãos parceiros, expôs um esquema de fraude e lavagem no setor de combustíveis envolvendo cerca de mil postos, fintechs e fundos de investimento. Os recortes financeiros têm escopos distintos e não devem ser confundidos: a movimentação financeira dos postos envolvidos somou cerca de R$ 52 bilhões entre 2020 e 2024; uma fintech de pagamentos que operou como "banco paralelo" do grupo movimentou mais de R$ 46 bilhões no mesmo período; ao menos 40 fundos de investimento controlados pela organização reuniam cerca de R$ 30 bilhões em patrimônio (fonte: Receita Federal / Agência Gov, 2025, agenciagov.ebc.com.br). Identificar o beneficiário final e o laranja por trás de um CNPJ deixou de ser higiene e virou defesa material.
O segundo movimento é arquitetural. A adoção de IA generativa em ambiente corporativo migrou de pilotos para produção, e com ela a exigência de ancorar respostas em dado verificável para mitigar alucinação e risco de compliance. A McKinsey, em seu levantamento State of AI 2025, registra que 88% das organizações já usam IA em ao menos uma função de negócio, mas apenas cerca de um terço escalou a tecnologia para além de pilotos — e somente 23% afirmam estar escalando algum sistema de IA agêntica (fonte: McKinsey, The state of AI 2025, novembro de 2025, mckinsey.com). Quem fornece dado precisa, ao mesmo tempo, alimentar esses modelos com segurança e governar como eles decidem. Os termos abaixo são as engrenagens dessa máquina.
Fundamentos de inteligência de decisão
Decision Intelligence (Inteligência de Decisão)
O que é. Disciplina que combina ciência de dados, modelos de IA e regras de negócio para automatizar ou apoiar decisões repetíveis — aprovar crédito, abrir conta, sinalizar fraude — de forma mensurável e auditável. Não é um relatório que um humano lê: é um sistema que recomenda ou decide e registra o porquê. No risco PJ, aparece quando você precisa decidir, em milissegundos e em escala, se um CNPJ recém-cadastrado merece limite, monitoramento reforçado ou bloqueio. A categoria amadureceu para setores regulados: o Gartner publicou seu primeiro Magic Quadrant de Decision Intelligence Platforms em fevereiro de 2026, sinal de que o tema deixou de ser nicho de analytics e passou a ser pauta de diretoria em bancos e seguradoras (fonte: Gartner, Magic Quadrant for Decision Intelligence Platforms, fevereiro de 2026, gartner.com).
Operational Health Index (Índice de Saúde Operacional)
O que é. Indicador composto que resume, em um único número ou faixa, a saúde de um negócio a partir de sinais cadastrais e comportamentais — situação na Receita Federal, regularidade fiscal, idade da empresa, vínculos societários, histórico de pagamento e variação de atividade. Funciona como um "score de vitalidade" da pessoa jurídica, distinto do score de crédito tradicional, porque mede continuidade operacional, não só inadimplência. Em compliance e onboarding PJ, aparece como gatilho de revisão: uma queda abrupta no índice pode indicar empresa de fachada, encerramento iminente ou captura por terceiros. O valor analítico do índice depende inteiramente da qualidade e do frescor do dado cadastral que o alimenta.
Data-as-a-Service (Dados como Serviço)
O que é. Modelo de fornecimento em que dados cadastrais, fiscais e de risco são entregues sob demanda via API, em vez de bases estáticas baixadas periodicamente. O cliente consulta no momento da decisão e recebe o dado mais recente, com governança e contrato de uso. Para risco e compliance, a diferença é decisiva: validar um CNPJ contra a base viva da Receita Federal no instante do onboarding evita decidir sobre um retrato vencido. Em 2026, o data-as-a-service é a camada que conecta o dado confiável aos novos consumidores de máquina — agentes de IA e pipelines de RAG — por meio de protocolos como o MCP, detalhado adiante.
Infraestrutura de IA sobre dados
MCP (Model Context Protocol)
O que é. O Model Context Protocol (Protocolo de Contexto de Modelo), criado pela Anthropic em 2024, é um padrão aberto que permite a modelos de IA acessar dados e ferramentas externas de forma segura e padronizada — o "USB-C" da integração entre IA e sistemas. Em vez de cada empresa construir conectores proprietários, expõe um servidor MCP que qualquer agente compatível consome. A adoção saiu do laboratório: ao longo de 2026, o ecossistema passou a contar com milhares de servidores MCP públicos e suporte declarado de Anthropic, OpenAI, Google e Microsoft. Para um provedor de dado cadastral, expor risco PJ via MCP é o que permite a um agente de IA consultar a fonte confiável sem alucinar — com trilha de auditoria e controle de acesso.
Agente de IA
O que é. Sistema de IA que não apenas responde, mas executa tarefas em múltiplos passos — decompõe um objetivo, consulta ferramentas, valida resultados e age — com autonomia delegada. Diferente de um chatbot que devolve texto, um agente abre conta, reconcilia dados ou monta um dossiê de due diligence consultando várias fontes. No risco e compliance, agentes de IA já automatizam KYC (Know Your Customer) e enriquecimento cadastral, mas introduzem um problema novo: a empresa precisa governar o que o agente acessa e registrar cada decisão. É por isso que MCP (controle de acesso), AI System Card e explicabilidade (transparência) deixaram de ser opcionais.
RAG (Retrieval-Augmented Generation)
O que é. Retrieval-Augmented Generation (Geração Aumentada por Recuperação) é a técnica que, antes de o modelo de IA responder, recupera trechos de uma base confiável e os injeta no contexto, ancorando a resposta em evidência verificável em vez da memória do modelo. É o principal mecanismo de redução de alucinação em IA corporativa: a etapa de recuperação fundamenta a saída em dado atual e rastreável, melhorando a precisão factual. Em compliance, RAG é o que permite a um agente responder "este CNPJ está irregular desde março de 2026, conforme a base X" com a fonte anexada, em vez de inventar. O padrão emergente em 2026 é o RAG agêntico, em que agentes especializados decompõem a pergunta, recuperam, validam e sintetizam em paralelo.
Knowledge Graph (Grafo de Conhecimento)
O que é. Representação estruturada de entidades — empresas, sócios, endereços, contas — e das relações entre elas, na forma de um grafo navegável, em vez de tabelas isoladas. Onde uma planilha lista CNPJs, o grafo revela que três empresas distintas compartilham o mesmo sócio, endereço e contador. Para investigação de fraude, lavagem de dinheiro e identificação de beneficiário final, o grafo é a ferramenta natural: a resposta procurada é uma cadeia de vínculos, não um parágrafo. Combinado a RAG (o chamado GraphRAG), o grafo de conhecimento melhora a precisão de respostas de analistas de IA sobre esquemas brutos de dados, porque preserva as relações que uma busca puramente textual perde. É exatamente o tipo de relação que esquemas como a Operação Carbono Oculto tornam visível.
Embeddings (Vetores Semânticos)
O que é. Representação numérica de um texto, nome ou registro em um espaço vetorial, de modo que itens semanticamente próximos fiquem próximos matematicamente. É o que permite à máquina entender que "Comércio de Calçados Silva ME" e "Silva Calçados Ltda" podem ser a mesma entidade, mesmo sem correspondência exata de caracteres. Embeddings são a base da busca semântica e da etapa de recuperação do RAG. No risco PJ, viabilizam deduplicação de cadastro, detecção de variações de razão social usadas por laranjas e correspondência aproximada (fuzzy matching) entre bases sem chave comum. A qualidade do embedding determina quantos falsos negativos escapam da triagem.
Governança e transparência de IA
AI System Card (Cartão de Sistema de IA)
O que é. Documento padronizado — idealmente legível por máquina (JSON) — que descreve um sistema de IA completo, não apenas o modelo: arquitetura, fontes de dados, benchmarks de avaliação, limitações conhecidas e mitigações de segurança implementadas. Funciona como o "rótulo nutricional" do sistema, permitindo a reguladores e auditores ingerir, comparar e auditar modelos em escala (fonte: Red Hat, 2026, redhat.com). Para áreas reguladas, o AI System Card é a resposta documental a uma pergunta da ANPD ou do regulador financeiro sobre como uma decisão automatizada foi tomada. É a contraparte de transparência exigida quando agentes de IA passam a decidir sobre pessoas e empresas.
Explicabilidade (XAI)
O que é. Explicabilidade, ou IA explicável (Explainable AI, XAI), é a propriedade de um sistema de IA poder justificar por que chegou a uma decisão específica — por exemplo, quais variáveis pesaram para negar um limite de crédito a um CNPJ. Distingue-se da governança (que define quem controla o quê) e do AI System Card (que descreve o sistema como um todo): a explicabilidade atua no nível da decisão individual. Em crédito e risco regulado no Brasil, é o conceito-chave para atender ao direito de revisão de decisões automatizadas assegurado pela LGPD: o titular pode questionar uma decisão, e a instituição precisa ser capaz de explicá-la em termos compreensíveis. Aparece sempre que um modelo opaco — como um conjunto de árvores ou uma rede neural — é usado em decisão que afeta direitos, exigindo técnicas que tornem o raciocínio do modelo inspecionável. Sem explicabilidade, um score pode ser preciso e, ainda assim, juridicamente indefensável.
Governança de IA
O que é. Conjunto de políticas, controles e trilhas de auditoria que define quais modelos podem ser usados, sobre quais dados, com qual supervisão e com qual registro. É o que separa um piloto de IA de um sistema apto a operar em ambiente regulado. O desafio é estrutural: o ritmo de adoção de IA corre à frente da maturidade de governança, e a maioria das organizações ainda opera sem política formal que discipline modelos, dados e responsabilidade. O Gartner projeta que, até 2028, metade das organizações adotará governança de dados em modelo zero-trust diante do volume crescente de dados não verificados gerados por IA (fonte: Gartner, via ABES, 2026, abes.org.br).
Dado legível por máquina
Schema.org
O que é. Vocabulário padronizado e colaborativo (mantido por Google, Microsoft, Yahoo e Yandex) para marcar o significado de elementos de uma página — que um texto é uma Organization, um Dataset ou uma FAQPage — de forma que motores de busca e modelos de IA entendam o conteúdo sem adivinhar. Estruturar a página de um conjunto de dados com metadados schema.org/Dataset aumenta a descoberta e a interoperabilidade por máquinas. Para um provedor de dado, Schema.org é o que faz a diferença entre um catálogo que a IA ignora e um que ela trata como fonte estruturada e confiável.
JSON-LD
O que é. JSON-LD (JSON for Linked Data) é o formato recomendado para implementar Schema.org: um bloco de código injetado na página que descreve a entidade em pares chave-valor estruturados, sem alterar o que o humano vê. É a sintaxe que carrega a semântica. Na prática de dado cadastral, JSON-LD é como você declara, de forma inequívoca e legível por máquina, "esta página é o registro autoritativo da empresa X, CNPJ Y, com tais atributos" — exatamente o sinal que sistemas automatizados usam para resolver e citar entidades. É o veículo técnico que conecta dado confiável a interoperabilidade com máquinas.
Agent-Readiness (Prontidão para Agentes)
O que é. Grau em que o conteúdo e a infraestrutura de uma organização estão preparados para ser consumidos por agentes de IA — não só lidos por humanos. Inclui arquivos como llms.txt, negociação de conteúdo em markdown, servidores MCP, metadados ricos e controle declarado de acesso de robôs (Content-Signal). É a soma operacional de Schema.org, JSON-LD e MCP. Em 2026, com adoção crescente de servidores MCP em organizações de software, a prontidão para agentes deixou de ser vantagem e virou requisito de mercado para quem vende dado a sistemas que decidem.
Tabela-resumo dos termos
| Termo | Categoria | Pergunta que responde | Onde aparece no risco PJ |
|---|---|---|---|
| Decision Intelligence | Fundamento | Como decidir em escala e auditável? | Onboarding, crédito, fraude |
| Operational Health Index | Fundamento | A empresa está operacionalmente viva? | Triagem de empresa de fachada |
| Data-as-a-Service | Fundamento | O dado é o mais recente, sob demanda? | Validação cadastral em tempo real |
| MCP | Infraestrutura | Como a IA acessa dado com segurança? | Consulta de risco por agente |
| Agente de IA | Infraestrutura | Quem executa a tarefa de ponta a ponta? | KYC e dossiê automatizados |
| RAG | Infraestrutura | Como ancorar a resposta em evidência? | Resposta com fonte rastreável |
| Knowledge Graph | Infraestrutura | Quais entidades estão conectadas? | Beneficiário final, laranjas |
| Embeddings | Infraestrutura | Estes registros são a mesma entidade? | Deduplicação, fuzzy matching |
| AI System Card | Governança | Como o sistema decide e com que limites? | Auditoria de decisão automatizada |
| Explicabilidade (XAI) | Governança | Por que esta decisão específica? | Revisão de decisão sob LGPD |
| Governança de IA | Governança | Quem controla o quê e registra? | Conformidade ANPD/LGPD |
| Schema.org | Dado legível | O que este conteúdo significa? | Catálogo de dado estruturado |
| JSON-LD | Dado legível | Como declarar a semântica? | Registro autoritativo de empresa |
| Agent-Readiness | Dado legível | Estou pronto para agentes? | Requisito de mercado de dado |
Como os termos se encaixam na prática
Como os 15 termos formam a cadeia de decisão de risco PJ
- 1Data-as-a-Service
Entrega o dado cadastral vivo da Receita Federal sob demanda.
- 2Embeddings + Knowledge Graph
Organizam o dado em entidades e relações navegáveis.
- 3RAG
Recupera o trecho certo e ancora a resposta em evidência verificável.
- 4MCP + Agente de IA
Expõem tudo a um agente com controle de acesso e trilha de auditoria.
- 5AI System Card + Governança
Documentam e controlam como a decisão automatizada é tomada.
Os 15 conceitos não são ilhas. Numa operação real de risco PJ em 2026, eles formam uma cadeia:
- Data-as-a-Service entrega o dado cadastral vivo da Receita Federal sob demanda.
- Embeddings e Knowledge Graph organizam esse dado em entidades e relações navegáveis.
- RAG recupera o trecho certo e ancora a resposta da IA em evidência verificável.
- MCP expõe tudo isso a um agente de IA com controle de acesso e trilha de auditoria.
- AI System Card, explicabilidade e governança de IA documentam, justificam e controlam como a decisão é tomada.
- Schema.org, JSON-LD e agent-readiness garantem que a fonte de dado seja descoberta e resolvida corretamente por sistemas automatizados.
O Operational Health Index e a decision intelligence ficam no topo, consumindo toda essa infraestrutura para produzir a decisão final — aprovar, monitorar ou bloquear — com o porquê registrado e explicável. A lacuna de escala medida pela McKinsey (88% usam IA, mas só cerca de um terço escalou) mostra que o gargalo de 2026 não é mais o modelo: é a base de dado confiável e a governança que sustentam a decisão.
Perguntas frequentes
Qual a diferença entre MCP e RAG?
MCP é o protocolo de conexão — define como um agente de IA acessa dados e ferramentas externas de forma padronizada e segura. RAG é a técnica de recuperação — busca trechos de uma base confiável e os injeta no contexto do modelo antes da resposta. Na prática, são complementares: o RAG decide o que recuperar para reduzir alucinação, e o MCP é um dos canais pelos quais o sistema acessa a fonte. Em risco PJ, a combinação permite que um agente valide um CNPJ contra a base viva e responda com a fonte anexada.
Por que um knowledge graph ajuda a detectar fraude?
Porque fraude e lavagem de dinheiro são, por natureza, problemas de relação, não de registro isolado. Um grafo de conhecimento revela que empresas aparentemente independentes compartilham sócios, endereços ou contas — o padrão clássico de laranjas e empresas de fachada. Esquemas como a Operação Carbono Oculto só ficam visíveis quando os vínculos são modelados como grafo. Combinar grafo com RAG (GraphRAG) preserva essas relações na resposta da IA, o que uma busca puramente textual perderia.
AI System Card é obrigatório por lei no Brasil?
Não há, até a data desta publicação, uma exigência legal específica nomeando o AI System Card. Mas a LGPD já assegura ao titular o direito de revisão de decisões automatizadas, e a ANPD vem reforçando a exigência de transparência. O AI System Card, somado à explicabilidade no nível da decisão, é a forma técnica de atender a essa demanda: documenta fontes de dados, limitações e mitigações de forma auditável. Adotá-lo é antecipar a fiscalização, não reagir a ela.
Por que explicabilidade importa em crédito PJ?
Porque a LGPD garante ao titular o direito de pedir revisão de uma decisão automatizada — por exemplo, a negativa de um limite. Sem explicabilidade, a instituição até pode ter um modelo preciso, mas não consegue justificar a decisão individual em termos compreensíveis, o que a torna juridicamente frágil. Explicabilidade (XAI) é o conjunto de técnicas que torna inspecionável quais variáveis pesaram em cada decisão, permitindo defender o score diante do titular e do regulador.
Como embeddings melhoram a qualidade de um cadastro PJ?
Embeddings permitem comparação por significado, não por caracteres idênticos. Isso resolve três problemas práticos: deduplicação (identificar que dois registros são a mesma empresa apesar de grafias diferentes), detecção de variações de razão social usadas para mascarar vínculos, e correspondência aproximada entre bases sem chave comum. O resultado é menos falso negativo na triagem de risco e um cadastro mais limpo. A qualidade do modelo de embedding determina diretamente quantos casos suspeitos escapam.
Por onde uma empresa de dados começa a ficar agent-ready?
Pela camada de dado legível por máquina: implementar Schema.org via JSON-LD nas páginas de entidade e catálogo, para que sistemas automatizados entendam e resolvam a fonte. Em seguida, expor consultas via servidor MCP com controle de acesso e auditoria. Com a adoção crescente de MCP em organizações de software, a prontidão para agentes é tanto requisito de interoperabilidade quanto vantagem competitiva para quem vende dado.
Leia também no DataHub
Fontes
- Conjur — COAF produz mais RIFs em 2025 e tem recorde de comunicações suspeitas (2026)
- Operação Carbono Oculto — Wikipédia (Receita Federal/MPSP) (2026)
- Digital Applied — MCP Adoption Statistics 2026 (2026)
- Techment — RAG in 2026: Retrieval-Augmented Generation for Enterprise AI (2026)
- Medium (Tongbing) — GraphRAG in 2026: A Practical Buyer's Guide (2026)
- Red Hat — Security beyond the model: Introducing AI system cards (2026)
- Digital Agency Network — Generative Engine Optimization Statistics 2026 (2026)
- SAS — Líder no Gartner Magic Quadrant for Decision Intelligence Platforms 2026 (2026)
- ABES/Gartner — Governança de dados zero-trust até 2028 (2026)
- SoftDesign — Tendências de tecnologia 2026 (Gartner/McKinsey/ISG) (2026)