Para que serve o arquivo llms.txt?

llms.txt é um arquivo de texto na raiz do domínio que lista, de forma limpa, o conteúdo mais importante do site para consumo por modelos de linguagem. Proposto por Jeremy Howard (Answer.AI) em setembro de 2024, funciona como sumário curado que entrega o sinal sem o ruído de menu, rodapé e scripts, ajudando o modelo a ler o que importa primeiro.

Qual schema.org usar em um portal de dados?

Os tipos mais valiosos são Organization, para desambiguar a entidade da empresa, e Dataset, para descrever cobertura, metodologia, frequência e licença de cada base. FAQPage também merece destaque, porque transforma perguntas e respostas em blocos answer-first autossuficientes, o formato que os LLMs mais citam.

O que é MCP e por que importa para dados B2B?

Model Context Protocol (MCP) é um padrão aberto lançado pela Anthropic em novembro de 2024 que permite a agentes acessar ferramentas e dados ao vivo por uma interface comum. Para uma empresa de dados, expor uma consulta de saúde de PJ ou verificação de CNPJ como tool MCP governada é o salto de ser lido para ser usado por máquinas.

Por onde começar a agent-readiness?

Pela camada mais barata e universal: publicar llms.txt na raiz, depois aplicar JSON-LD de Organization e FAQPage, popular /.well-known/ com metadados de descoberta e, por fim, um servidor MCP com uma ou duas tools de alto valor. Cada camada rende isoladamente; a sequência evita retrabalho.

Agent-readiness na prática: llms.txt, schema.org, .well-known e MCP para dados

Empresas de dados gastam fortunas para serem lidas por humanos em horário comercial. Em 2026, o leitor que mais importa é uma máquina que trabalha de madrugada. Agentes de IA consultam, comparam e citam fontes 24 horas por dia, e não enxergam o seu site bonito; enxergam a estrutura por trás dele.

A tese: agent-readiness é a nova acessibilidade. Assim como um site sem semântica era invisível para leitores de tela, um portal de dados sem llms.txt, schema.org, .well-known e MCP é invisível para agentes. A boa notícia é que os quatro componentes são baratos e padronizados.

O que é agent-readiness

Como um agente de IA consome um portal de dados agent-ready

Agente chega ao domínioEm nome de um usuário, 24/7

Lê llms.txtDescobre páginas canônicas e markdown

Interpreta schema.orgOrganization, Dataset, FAQPage

Consulta /.well-known/Políticas e descritor de serviço

Precisa de dado ao vivo?

Sim

Chama tool via MCPConsulta governada e autenticada

Não

Cita conteúdo estruturadoAtribui com link à fonte

Ver descrição do fluxo

Agente chega ao domínio — Em nome de um usuário, 24/7
Lê llms.txt — Descobre páginas canônicas e markdown
Interpreta schema.org — Organization, Dataset, FAQPage
Consulta /.well-known/ — Políticas e descritor de serviço
Precisa de dado ao vivo?
Sim: Chama tool via MCP — Consulta governada e autenticada
Não: Cita conteúdo estruturado — Atribui com link à fonte

Brasil GEO, 2026

Agent-readiness é o grau em que o conteúdo e os dados de uma empresa podem ser descobertos, interpretados e consumidos por agentes de IA sem intervenção humana. Não é sobre estética nem sobre velocidade de página; é sobre estrutura legível por máquina, contratos de acesso claros e metadados que dizem ao agente o que existe, onde está e como usar.

A diferença para o SEO clássico é o consumidor. O SEO otimiza para o rastreador que indexa para uma busca humana. A agent-readiness otimiza para o agente que lê, raciocina e age, muitas vezes em nome de um usuário que nunca verá a sua página. O agente quer dado limpo, não layout.

Quatro camadas compõem a agent-readiness de um portal de dados: um índice legível (llms.txt), dados estruturados (schema.org), metadados de descoberta (.well-known) e um canal de ferramentas (MCP). Cada uma resolve uma pergunta diferente do agente: o que ler, como interpretar, onde se orientar e como interagir.

A urgência vem da economia da atenção da máquina. O agente opera sob janela de contexto e custo por token, então prioriza fontes que entregam sinal limpo com pouco ruído. Um portal agent-ready não apenas permite o acesso; ele reduz o esforço do agente, e esse esforço menor se traduz em maior probabilidade de ser lido e citado.

llms.txt: o índice para modelos

llms.txt é um arquivo de texto na raiz do domínio que lista, em formato limpo, o conteúdo mais importante do site para consumo por modelos de linguagem. Proposto por Jeremy Howard, da Answer.AI, em setembro de 2024, ele funciona como um sumário curado: aponta as páginas canônicas, descreve cada uma em uma linha e oferece versões em markdown fáceis de ingerir.

A lógica é de eficiência. Modelos têm janela de contexto limitada e o HTML de um portal real vem cheio de menu, rodapé, scripts e ruído. O llms.txt entrega o sinal sem o ruído, dizendo ao modelo o que vale a pena ler primeiro. Para uma empresa de dados, é a chance de curar a própria narrativa.

Na prática, um bom llms.txt de portal de dados lista a página de entidade da empresa, os glossários, as metodologias, os artigos-pilar e a documentação de produto. Cada item leva título, link e uma descrição de uma frase. Versões markdown das páginas principais ampliam a citabilidade, porque o modelo ingere texto puro sem perder estrutura.

Há uma disciplina de manutenção que separa o llms.txt útil do abandonado. O arquivo precisa acompanhar o conteúdo: página nova entra, página morta sai. Um llms.txt desatualizado aponta o modelo para links quebrados e mina a confiança. Tratar o arquivo como artefato vivo, versionado junto com o site, é o que mantém seu valor.

O que entra no llms.txt de um portal de dados

A curadoria do llms.txt é onde a empresa de dados decide a própria narrativa para a máquina. A regra é simples: priorize as páginas que você gostaria que o modelo citasse. Isso quase sempre significa a página de entidade da empresa, os glossários de termos da categoria, as páginas de metodologia e os artigos-pilar que sustentam a autoridade no tema.

O glossário merece atenção especial. Em dados B2B, a categoria é cheia de termos com definições disputadas, e o modelo recompensa quem define com clareza. Um glossário bem feito, listado no llms.txt e marcado com schema.org, torna a marca a referência que o assistente usa quando o comprador pergunta o que significa um conceito.

O que fica de fora também comunica. Páginas de campanha, conteúdo efêmero e material puramente promocional poluem o índice e diluem o sinal. Um llms.txt enxuto, com poucas páginas de alto valor, ensina mais ao modelo do que um índice inchado que mistura o essencial com o descartável. Curadoria é o trabalho, não listagem.

schema.org: dados que a máquina entende

schema.org é o vocabulário de dados estruturados que permite ao agente interpretar o significado de cada elemento da página, não apenas seu texto. Marcar uma página como Organization, Article, FAQPage, Dataset ou Product com JSON-LD transforma conteúdo ambíguo em fatos explícitos: quem é a empresa, quem assina o artigo, qual a pergunta e a resposta, qual a fonte do dado.

Para dados B2B, os tipos mais valiosos são Organization e Dataset. Organization desambigua a entidade: nome oficial, descrição canônica, fundadores, identificadores. Dataset descreve cada base de dados publicada: cobertura, metodologia, frequência de atualização, licença. É a diferença entre o agente adivinhar e o agente saber.

FAQPage merece destaque. Perguntas e respostas marcadas em JSON-LD são, por construção, blocos answer-first autossuficientes, o formato que os modelos mais citam. Estruturar FAQ com schema é uma das maneiras mais baratas de aumentar citabilidade em um portal de dados.

Componente	Pergunta do agente que responde	Formato	Custo de implementação
llms.txt	O que devo ler primeiro?	Texto / markdown na raiz	Baixo
schema.org (JSON-LD)	O que isto significa?	Script JSON-LD por página	Baixo a médio
.well-known	Onde me oriento e quais as regras?	Arquivos em /.well-known/	Baixo
MCP	Como interajo com seus dados ao vivo?	Servidor MCP com tools	Médio a alto

A consistência entre o schema e o texto visível é inegociável. Marcar uma página como Dataset com uma cobertura que o conteúdo não confirma é pior do que não marcar: o agente detecta a divergência e desconfia da fonte inteira. Dados estruturados são promessa; o texto é a prova. As duas precisam coincidir.

.well-known: o cartão de visitas do domínio

O diretório /.well-known/ é o local padronizado onde agentes e serviços procuram metadados de descoberta sobre um domínio. Definido em padrão da IETF (RFC 8615, 2019), ele já hospeda arquivos como security.txt e agora abriga descritores que dizem a agentes de IA quais recursos, políticas e endpoints a organização expõe.

Para um portal de dados, o .well-known organiza a sinalização. Um security.txt indica como reportar vulnerabilidades; um descritor de servidor MCP aponta onde o agente encontra as ferramentas; políticas de uso de conteúdo declaram o que pode ou não ser usado em treinamento. É sinalização explícita, no lugar que o agente já sabe consultar.

A vantagem é evitar pseudo-readiness. Inventar endpoints exóticos que nenhum agente procura não ajuda; usar os caminhos padronizados que os agentes já consultam, sim. O .well-known é o endereço combinado onde a conversa entre domínio e agente começa.

O diretório também é onde a empresa exerce governança de acesso. Declarar de forma legível quais agentes são bem-vindos, sob quais condições e com quais limites é mais inteligente do que bloquear tudo por medo ou liberar tudo por descuido. Em dados B2B, onde licença e procedência importam, essa sinalização protege o ativo sem apagar a marca dos modelos.

Sinalizar sem inventar padrões

A tentação técnica é criar endpoints e arquivos sofisticados que nenhum agente procura. Isso é pseudo-readiness: parece avançado, mas não gera efeito, porque os agentes só consultam os caminhos padronizados. A regra é usar o que já existe, security.txt, descritores de serviço, políticas de uso de conteúdo, e resistir a inventar um dialeto próprio que ninguém lê.

A política de uso de conteúdo merece clareza. Declarar, de forma legível por máquina, o que pode ser usado para treinamento e o que é reservado evita tanto o bloqueio cego quanto a exposição involuntária. Para uma empresa de dados, essa declaração é parte da governança do ativo, e não um detalhe técnico secundário.

O princípio geral é a sinalização explícita. O agente não adivinha intenções; ele lê declarações. Quanto mais a empresa declara, nos lugares combinados, quem é, o que oferece e sob quais regras, menos o modelo precisa inferir, e menos ele erra. Reduzir a inferência da máquina é, no fundo, o objetivo de toda a camada de descoberta.

MCP: o canal de ferramentas ao vivo

Answer.AI, 2024; schema.org; Anthropic, 2024; IETF RFC 8615

Model Context Protocol (MCP) é um padrão aberto, lançado pela Anthropic em novembro de 2024, que permite a modelos e agentes acessarem ferramentas e dados ao vivo por uma interface comum. Em vez de depender só do que foi treinado ou rastreado, o agente chama uma tool exposta pela empresa e recebe dado fresco, sob regras definidas pelo provedor.

Para uma empresa de dados, o MCP é a fronteira mais estratégica da agent-readiness. Um servidor MCP pode expor uma consulta de saúde de PJ, uma verificação de CNPJ ou uma timeline de risco como ferramenta que um agente invoca em tempo real, com autenticação e governança. É o salto de "ser lido" para "ser usado".

"Pense no MCP como uma porta USB-C para aplicações de IA: uma maneira padronizada de conectar modelos a fontes de dados e ferramentas." (Anthropic, documentação do Model Context Protocol, 2024)

A adoção acelera. Servidores MCP se multiplicaram ao longo de 2025 e 2026, e os principais clientes de IA passaram a suportá-los, o que transforma o protocolo em camada de integração de fato. Para dados B2B, expor um servidor MCP bem governado é o que diferencia o fornecedor citado do fornecedor consultado por máquinas.

O MCP também reposiciona o modelo de negócio. Quando dado deixa de ser entregue só por download ou painel e passa a ser consumível por agente, surge uma nova superfície de produto: o B2A, business-to-agent. A empresa de dados que expõe tools governadas via MCP começa a atender, além de pessoas, os agentes que decidem em nome delas. É uma frente que exige autenticação, limites de uso e trilha de auditoria desde o primeiro dia.

Governança: o que expor e o que proteger

Expor dados a agentes não significa abrir tudo. A governança de um servidor MCP de dados B2B começa pela pergunta de qual valor entregar em tempo real e qual reservar ao relacionamento comercial. Uma verificação pública de existência de CNPJ pode ser aberta; um score proprietário ou uma análise aprofundada exigem autenticação e contrato. A linha entre as duas é decisão de produto, não de tecnologia.

Autenticação e limites de uso protegem o ativo. Cada tool exposta deve identificar quem chama, registrar o uso e impor cotas, para que o canal de agentes não vire porta de extração em massa do que a empresa vende. Em dados, onde a base é o produto, governança frouxa transforma agent-readiness em prejuízo.

A trilha de auditoria fecha a governança. Saber quais agentes consultaram o que, e quando, é requisito de compliance e de confiança, sobretudo em dados sensíveis de risco de PJ. A LGPD e as boas práticas de segurança não desaparecem porque o consumidor virou máquina; pelo contrário, o registro detalhado de acesso passa a ser ainda mais importante quando o volume de consultas automatizadas cresce.

Erros que tornam um portal de dados invisível para agentes

Os erros mais comuns de agent-readiness não são ausência de tecnologia, são decisões que apagam a marca dos modelos sem querer. Bloqueio cego de bots, conteúdo preso em JavaScript, dados estruturados que contradizem o texto e políticas ambíguas estão entre as causas frequentes de um portal de dados nunca aparecer nas respostas de IA.

O bloqueio cego é o mais autodestrutivo. Por reflexo de segurança, algumas empresas vetam todos os rastreadores de IA no robots e depois estranham a invisibilidade nos assistentes. A decisão de acesso deve ser deliberada e granular: permitir os agentes que agregam visibilidade, limitar os que só consomem, e declarar isso de forma legível, não fechar a porta inteira.

O conteúdo preso em JavaScript é uma armadilha silenciosa. Se a informação crítica só aparece depois de a página executar scripts pesados, muitos agentes não a enxergam. Renderizar o essencial no HTML, ou oferecer versões em markdown via llms.txt, garante que o dado chegue ao modelo sem depender de execução complexa.

A contradição entre schema e texto corrói a confiança. Marcar uma página como Dataset com uma cobertura que o conteúdo não confirma faz o agente detectar a divergência e desconfiar da fonte inteira. Dados estruturados são promessa; o texto é a prova; as duas precisam coincidir, sob pena de o modelo descartar ambas.

Por fim, a ausência de uma página de entidade clara deixa o modelo adivinhar. Sem um lugar canônico que diga quem é a empresa, em qual categoria atua e o que a diferencia, o assistente preenche a lacuna com inferência, e a inferência erra. A página de entidade é barata e resolve a raiz de boa parte das atribuições equivocadas.

Roteiro de implementação para portais de dados

O roteiro de agent-readiness para um portal de dados segue a ordem do esforço crescente: começar pelo barato e universal, terminar no canal vivo. Implementar tudo de uma vez é desnecessário; cada camada já rende isoladamente e a sequência evita reescrever decisões.

Semana 1: publicar llms.txt na raiz com páginas canônicas, glossários e metodologias, mais versões markdown das principais.
Semana 2: aplicar JSON-LD de Organization no domínio e FAQPage e Article nas peças-pilar.
Semana 3: popular /.well-known/ com security.txt, política de uso de conteúdo e descritor de serviço.
Semanas 4 a 8: desenhar e publicar um servidor MCP com uma ou duas tools de alto valor, autenticadas e governadas.
Contínuo: validar com agentes reais, medir mention rate e iterar conforme o loop de GEO.

A validação fecha o roteiro e costuma ser pulada. Não basta publicar os arquivos; é preciso testar com agentes reais, perguntando a um assistente sobre a empresa e observando se ele encontra, interpreta e cita corretamente. O teste expõe lacunas que nenhum checklist revela, como uma descrição de entidade que o modelo insiste em confundir.

O critério de sucesso não é ter os quatro componentes, é o agente conseguir descobrir, interpretar e consultar a empresa sem ajuda humana. Agent-readiness, como acessibilidade, se prova no uso real, não no checklist.

Há uma assimetria que recompensa quem age primeiro. Os quatro componentes ainda são raros em portais de dados B2B brasileiros, o que significa que a empresa que os implementa bem ganha vantagem justamente enquanto a maioria hesita. Quando o padrão virar regra, ele deixará de diferenciar; por ora, ele separa quem os agentes encontram de quem eles ignoram.

A agenda de longo prazo aponta para o B2A. À medida que mais decisões de compra e de risco passam a ser intermediadas por agentes, a superfície de atendimento da empresa de dados deixa de ser só o site e o vendedor, e passa a incluir as tools que ela expõe. Construir essa superfície com governança sólida hoje é preparar o produto para um mercado em que o cliente, cada vez mais, é uma máquina agindo por alguém.

O começo, porém, é modesto e barato. Publicar um llms.txt curado nesta semana já coloca a empresa à frente da maioria, e cada camada seguinte aprofunda a vantagem sem exigir reescrever o que veio antes. Agent-readiness não é um salto tecnológico; é uma sequência de decisões pequenas, tomadas na ordem certa, que somadas tornam a empresa legível para o leitor que nunca dorme.

Fontes

Jeremy Howard / Answer.AI - The /llms.txt file (2024)
schema.org - Vocabulário de dados estruturados (2026)
Anthropic - Model Context Protocol (2024)
IETF - RFC 8615 (.well-known URIs) (2019)
Gartner - Search Engine Volume Drop Forecast (2024)
Google Search Central - Dados estruturados (2026)

Aviso editorial. Conteúdo de curadoria editorial independente da Brasil GEO, baseado em materiais públicos da Stone Co. e do mercado financeiro. Não substitui aconselhamento profissional contábil ou financeiro. Tarifas, taxas e condições de produtos Stone são atualizadas periodicamente — confira valores vigentes em conteudo.stone.com.br/.

Próximos passos

Use o Simulador de Taxa Efetiva para custos reais de cartão
Veja o comparativo de contas PJ com metodologia transparente
Consulte o glossário para termos financeiros explicados