llms.txt e a Coordenação Publicador-LLM: genealogia, fundamentação e economia institucional de uma proposta de padrão em disputa
Resumo
O presente artigo desenvolve uma revisão analítica da proposta llms.txt, formulada por Jeremy Howard (cofundador da Answer.AI) em 3 de setembro de 2024, examinando suas raízes na limitação prática das janelas de contexto de modelos de linguagem, sua trajetória técnica desde a proposta original até a adoção por Mintlify, Cloudflare, Vercel, Stripe e mais de 844 mil sites em outubro de 2025, e sua tensão institucional com a recusa explícita de suporte oficial dos provedores de LLMs aos quais o protocolo se destina (OpenAI, Google, Anthropic, Meta). A investigação articula três planos de análise: o plano histórico, que reconstitui a trajetória da proposta desde seus precursores em robots.txt e sitemap.xml até a inflexão de 14 de novembro de 2024; o plano técnico-conceitual, que examina a estrutura do arquivo, suas variantes (llms.txt, llms-full.txt, .md mirroring) e suas relações com robots.txt, sitemap.xml e Schema.org; e o plano institucional-econômico, que interpreta o llms.txt como caso paradigmático de proposta de padrão sem governança de consórcio, aprovada por dezenas de fornecedores de infraestrutura mas rejeitada pelos consumidores aos quais se destina.
Introdução
A interação entre modelos de linguagem de larga escala e o conteúdo da web aberta opera, em 2026, sob restrição técnica fundamental: a janela de contexto desses modelos — isto é, o conjunto máximo de tokens que podem ser processados simultaneamente em uma operação de inferência — é insuficiente para acomodar o conteúdo integral da maioria dos sites comerciais. A conversão de páginas HTML complexas, com navegação, anúncios e JavaScript, em texto adequado ao consumo por modelos de linguagem é processo difícil e impreciso, no qual proporção significativa do orçamento de tokens é consumida por elementos sem valor informacional. Esta restrição constitui o problema técnico para o qual a proposta llms.txt, formulada por Jeremy Howard em 3 de setembro de 2024, oferece resposta institucional (HOWARD, 2024). A relevância do tópico decorre de três ordens de razões. A primeira é histórica: llms.txt é a primeira proposta articulada de protocolo voltado especificamente para a coordenação entre publicadores e modelos de linguagem em tempo de inferência, distinta dos protocolos preexistentes voltados para mecanismos de busca tradicionais (robots.txt, sitemap.xml). A segunda é institucional: a trajetória do llms.txt difere significativamente das trajetórias bem-sucedidas de Sitemap (2005–2006) e Schema.org (2011), por ter sido formulada sem consórcio de patrocinadores e sem comprometimento prévio dos consumidores ao quais se destina. A terceira é teórica: o objeto permite examinar como propostas de padrão se constituem ou fracassam em ambientes nos quais a coordenação entre concorrentes é difícil e os incentivos econômicos para adoção são assimétricos. A literatura sobre llms.txt é abundante na vertente prática da Generative Engine Optimization, mas relativamente fragmentada quanto à sua análise como artefato sociotécnico. Existem a especificação original em llmstxt.org, comentários públicos de figuras como John Mueller (Google Search Advocate) e Gary Illyes (Google Search Relations), análises críticas em publicações especializadas (Search Engine Land, Search Engine Journal, Ahrefs), e produção em comunidades técnicas. Este artigo procura preencher uma lacuna intermediária: revisão sistemática que articule a história técnica, a estrutura conceitual, as escolas de pensamento, as polêmicas documentadas e as perspectivas atuais, sob enquadramento da Economia Institucional aplicada à infraestrutura informacional. O artigo está estruturado em doze seções. A seção 2 apresenta a nota metodológica, explicitando os critérios de Eco (1977) que orientaram a delimitação do objeto. A seção 3 reconstitui a fundamentação técnica nas limitações de janela de contexto e nos pipelines de retrieval-augmented generation (RAG). A seção 4 examina os precursores institucionais. A seção 5 trata do lançamento e da consolidação inicial da proposta. A seção 6 detalha a arquitetura técnica do arquivo e suas variantes. A seção 7 mapeia atores e escolas. A seção 8 analisa o caso da Mintlify e a rede de adoção corporativa. A seção 9 examina as polêmicas e a posição oficial do Google. A seção 10 sistematiza adoção e evidências empíricas. A seção 11 discute perspectivas no contexto da disputa com o Model Context Protocol. A seção 12 conclui com proposições teóricas.
2 Nota metodológica
A construção deste artigo seguiu protocolo de revisão sistemática informado pelas recomendações de Umberto Eco em Como se Faz uma Tese (1977). Eco estabelece quatro critérios para a definição de objeto de pesquisa: o tema deve tratar de objeto reconhecível por terceiros; deve haver fontes acessíveis; as fontes devem ser manejáveis no horizonte de competência disponível; e o...
Leia o artigo completo
Baixe gratuitamente o PDF com o conteúdo integral deste artigo, incluindo todas as seções, tabelas, referências bibliográficas e análise completa.
29 min de leitura | Acesso gratuito mediante cadastro
Sumário do artigo
- 2 Nota metodológica
- 3 Fundamentação: janelas de contexto e o problema da curadoria informacional
- 3.1 A restrição técnica das janelas de contexto
- 3.2 Pipelines RAG e a inferência em tempo real
- 4 Precursores institucionais
- 4.1 robots.txt e o paradigma da exclusão
- 4.2 sitemap.xml e o paradigma da inclusão exaustiva
- 4.3 Schema.org e o paradigma da marcação semântica
- 4.4 Model Context Protocol e a alternativa da Anthropic
- 5 Lançamento e difusão inicial da proposta
- 5.1 A proposta de 3 de setembro de 2024
- 5.2 O rollout da Mintlify em 14 de novembro de 2024
- 5.3 A formação da rede de adoção corporativa
- 6 Arquitetura técnica do arquivo
- 6.1 Estrutura básica do llms.txt
- 6.2 A variante llms-full.txt
- 6.3 O espelhamento .md
- 7 Atores, escolas e tradições
- 7.1 A escola Answer.AI e fast.ai
- 7.2 A escola Mintlify e a infraestrutura de documentação
- 7.3 A escola GEO/SEO e a busca por instrumentalização
- 7.4 A escola crítica e a tradição cética
- 8 O caso Mintlify e a rede de adoção corporativa
- 8.1 A decisão estratégica de novembro de 2024
- 8.2 Padrões de implementação institucional
- 9 Polêmicas, vieses e a posição oficial do Google
- 9.1 O posicionamento de John Mueller em junho de 2025
- 9.2 A confirmação de Gary Illyes em julho de 2025
- 9.3 O episódio de 3 de dezembro de 2025
- 9.4 O loop de desinformação documentado pelo Search Engine Journal
- 10 Adoção e evidências empíricas
- 10.1 Dados quantitativos de adoção
- 10.2 Evidências sobre uso efetivo por LLMs
- 11 Perspectivas: bifurcação funcional e disputa com MCP