Pular para o conteudo principal
Integrare
Voltar

llms.txt e a Coordenação Publicador-LLM: genealogia, fundamentação e economia institucional de uma proposta de padrão em disputa

Ivan Prizon
29 de abril de 2026
29 min de leitura
91 visualizações
llms.txt Geração aumentada por recuperação Janela de contexto Coordenação publicador-LLM Custos de transação Tecnologias sociais

Resumo

O presente artigo desenvolve uma revisão analítica da proposta llms.txt, formulada por Jeremy Howard (cofundador da Answer.AI) em 3 de setembro de 2024, examinando suas raízes na limitação prática das janelas de contexto de modelos de linguagem, sua trajetória técnica desde a proposta original até a adoção por Mintlify, Cloudflare, Vercel, Stripe e mais de 844 mil sites em outubro de 2025, e sua tensão institucional com a recusa explícita de suporte oficial dos provedores de LLMs aos quais o protocolo se destina (OpenAI, Google, Anthropic, Meta). A investigação articula três planos de análise: o plano histórico, que reconstitui a trajetória da proposta desde seus precursores em robots.txt e sitemap.xml até a inflexão de 14 de novembro de 2024; o plano técnico-conceitual, que examina a estrutura do arquivo, suas variantes (llms.txt, llms-full.txt, .md mirroring) e suas relações com robots.txt, sitemap.xml e Schema.org; e o plano institucional-econômico, que interpreta o llms.txt como caso paradigmático de proposta de padrão sem governança de consórcio, aprovada por dezenas de fornecedores de infraestrutura mas rejeitada pelos consumidores aos quais se destina.

Introdução

A interação entre modelos de linguagem de larga escala e o conteúdo da web aberta opera, em 2026, sob restrição técnica fundamental: a janela de contexto desses modelos — isto é, o conjunto máximo de tokens que podem ser processados simultaneamente em uma operação de inferência — é insuficiente para acomodar o conteúdo integral da maioria dos sites comerciais. A conversão de páginas HTML complexas, com navegação, anúncios e JavaScript, em texto adequado ao consumo por modelos de linguagem é processo difícil e impreciso, no qual proporção significativa do orçamento de tokens é consumida por elementos sem valor informacional. Esta restrição constitui o problema técnico para o qual a proposta llms.txt, formulada por Jeremy Howard em 3 de setembro de 2024, oferece resposta institucional (HOWARD, 2024). A relevância do tópico decorre de três ordens de razões. A primeira é histórica: llms.txt é a primeira proposta articulada de protocolo voltado especificamente para a coordenação entre publicadores e modelos de linguagem em tempo de inferência, distinta dos protocolos preexistentes voltados para mecanismos de busca tradicionais (robots.txt, sitemap.xml). A segunda é institucional: a trajetória do llms.txt difere significativamente das trajetórias bem-sucedidas de Sitemap (2005–2006) e Schema.org (2011), por ter sido formulada sem consórcio de patrocinadores e sem comprometimento prévio dos consumidores ao quais se destina. A terceira é teórica: o objeto permite examinar como propostas de padrão se constituem ou fracassam em ambientes nos quais a coordenação entre concorrentes é difícil e os incentivos econômicos para adoção são assimétricos. A literatura sobre llms.txt é abundante na vertente prática da Generative Engine Optimization, mas relativamente fragmentada quanto à sua análise como artefato sociotécnico. Existem a especificação original em llmstxt.org, comentários públicos de figuras como John Mueller (Google Search Advocate) e Gary Illyes (Google Search Relations), análises críticas em publicações especializadas (Search Engine Land, Search Engine Journal, Ahrefs), e produção em comunidades técnicas. Este artigo procura preencher uma lacuna intermediária: revisão sistemática que articule a história técnica, a estrutura conceitual, as escolas de pensamento, as polêmicas documentadas e as perspectivas atuais, sob enquadramento da Economia Institucional aplicada à infraestrutura informacional. O artigo está estruturado em doze seções. A seção 2 apresenta a nota metodológica, explicitando os critérios de Eco (1977) que orientaram a delimitação do objeto. A seção 3 reconstitui a fundamentação técnica nas limitações de janela de contexto e nos pipelines de retrieval-augmented generation (RAG). A seção 4 examina os precursores institucionais. A seção 5 trata do lançamento e da consolidação inicial da proposta. A seção 6 detalha a arquitetura técnica do arquivo e suas variantes. A seção 7 mapeia atores e escolas. A seção 8 analisa o caso da Mintlify e a rede de adoção corporativa. A seção 9 examina as polêmicas e a posição oficial do Google. A seção 10 sistematiza adoção e evidências empíricas. A seção 11 discute perspectivas no contexto da disputa com o Model Context Protocol. A seção 12 conclui com proposições teóricas.

2 Nota metodológica

A construção deste artigo seguiu protocolo de revisão sistemática informado pelas recomendações de Umberto Eco em Como se Faz uma Tese (1977). Eco estabelece quatro critérios para a definição de objeto de pesquisa: o tema deve tratar de objeto reconhecível por terceiros; deve haver fontes acessíveis; as fontes devem ser manejáveis no horizonte de competência disponível; e o...

Leia o artigo completo

Baixe gratuitamente o PDF com o conteúdo integral deste artigo, incluindo todas as seções, tabelas, referências bibliográficas e análise completa.

29 min de leitura | Acesso gratuito mediante cadastro

Sumário do artigo

  1. 2 Nota metodológica
  2. 3 Fundamentação: janelas de contexto e o problema da curadoria informacional
  3. 3.1 A restrição técnica das janelas de contexto
  4. 3.2 Pipelines RAG e a inferência em tempo real
  5. 4 Precursores institucionais
  6. 4.1 robots.txt e o paradigma da exclusão
  7. 4.2 sitemap.xml e o paradigma da inclusão exaustiva
  8. 4.3 Schema.org e o paradigma da marcação semântica
  9. 4.4 Model Context Protocol e a alternativa da Anthropic
  10. 5 Lançamento e difusão inicial da proposta
  11. 5.1 A proposta de 3 de setembro de 2024
  12. 5.2 O rollout da Mintlify em 14 de novembro de 2024
  13. 5.3 A formação da rede de adoção corporativa
  14. 6 Arquitetura técnica do arquivo
  15. 6.1 Estrutura básica do llms.txt
  16. 6.2 A variante llms-full.txt
  17. 6.3 O espelhamento .md
  18. 7 Atores, escolas e tradições
  19. 7.1 A escola Answer.AI e fast.ai
  20. 7.2 A escola Mintlify e a infraestrutura de documentação
  21. 7.3 A escola GEO/SEO e a busca por instrumentalização
  22. 7.4 A escola crítica e a tradição cética
  23. 8 O caso Mintlify e a rede de adoção corporativa
  24. 8.1 A decisão estratégica de novembro de 2024
  25. 8.2 Padrões de implementação institucional
  26. 9 Polêmicas, vieses e a posição oficial do Google
  27. 9.1 O posicionamento de John Mueller em junho de 2025
  28. 9.2 A confirmação de Gary Illyes em julho de 2025
  29. 9.3 O episódio de 3 de dezembro de 2025
  30. 9.4 O loop de desinformação documentado pelo Search Engine Journal
  31. 10 Adoção e evidências empíricas
  32. 10.1 Dados quantitativos de adoção
  33. 10.2 Evidências sobre uso efetivo por LLMs
  34. 11 Perspectivas: bifurcação funcional e disputa com MCP

Compartilhar

LinkedIn X
Fale no WhatsApp

Nos respeitamos sua privacidade

Utilizamos cookies para melhorar sua experiencia. Ao clicar em "Aceitar todos", voce concorda com o uso de todos os cookies.

Cookies Essenciais (Obrigatorios)

Necessarios para o funcionamento basico do site.

Cookies de Analise

Ajudam a entender como os visitantes interagem com o site.

Cookies de Marketing

Usados para exibir anuncios relevantes.