Pular para o conteudo principal
Integrare
Voltar

Schema.org e dados estruturados na web: fundamentação, genealogia e economia institucional de um padrão de coordenação informacional

Ivan Prizon
29 de abril de 2026
33 min de leitura
93 visualizações
Schema.org Dados estruturados Web Semântica Custos de transação JSON-LD Tecnologias sociais

Resumo

O presente artigo desenvolve uma revisão analítica do vocabulário Schema.org e do campo mais amplo dos dados estruturados na web, examinando suas raízes na visão da Web Semântica de Berners-Lee, Hendler e Lassila (2001), suas precondições técnicas em RDF, microformatos e GoodRelations, e sua institucionalização a partir do consórcio formado em 2 de junho de 2011 por Bing, Google e Yahoo, ao qual Yandex se associou em novembro do mesmo ano. A investigação articula três planos de análise: o plano histórico, que reconstitui a trajetória do vocabulário desde seus precursores em pesquisa de Web Semântica até sua estabilização em treze versões; o plano técnico-conceitual, que examina a estrutura de tipos, propriedades e hierarquias; e o plano institucional-econômico, que interpreta Schema.org como tecnologia social de coordenação que reduz custos de transação informacionais entre publicadores e mecanismos de busca, em arranjo cuja governança formal aberta convive com captura efetiva por agente dominante. Os resultados indicam que Schema.org configura caso paradigmático de tensão entre coordenação cooperativa e concentração distributiva.

Introdução

A premissa segundo a qual a web é um repositório legível por humanos foi modificada de forma silenciosa e progressiva ao longo das duas últimas décadas. A camada de marcação que descreve o significado dos elementos contidos em uma página — não apenas seu posicionamento visual ou sua tipografia, mas sua natureza ontológica como produto, evento, organização ou pessoa — tornou-se infraestrutura crítica para a circulação de informação na economia digital. Este substrato semântico, frequentemente invisível ao usuário final, constitui o objeto deste artigo. Mais especificamente, examina-se o Schema.org, vocabulário de dados estruturados lançado em 2 de junho de 2011 por Bing, Google e Yahoo, ao qual Yandex se associou em novembro do mesmo ano (BRICKLEY; GUHA; MACBETH, 2016). A relevância do tópico decorre de três ordens de razões. A primeira é quantitativa: dados do Web Data Commons, projeto que extrai anualmente o conteúdo semântico do Common Crawl, registram mais de 106 bilhões de RDF quads descrevendo 3,1 bilhões de entidades em 12,8 milhões de websites distintos (PEETERS; BRINKMANN; BIZER, 2024). O Web Almanac do HTTP Archive (2024) reporta que o JSON-LD está presente em 41% das páginas indexadas, contra 34% em 2022, enquanto a documentação oficial do Schema.org indica adoção em mais de 45 milhões de domínios. A segunda razão é institucional: Schema.org atua como ponto focal de coordenação entre publicadores e mecanismos de busca, função que se desloca progressivamente para a interface entre conteúdo web e modelos de linguagem generativos. A terceira razão é teórica: o objeto permite examinar como uma tecnologia social — no sentido atribuído por Nelson e Sampat (2001) — institucionaliza-se através de um consórcio privado, sem mediação estatal direta, e quais são as consequências distributivas dessa configuração. A literatura sobre Schema.org é abundante na vertente prática da otimização para mecanismos de busca, mas relativamente escassa quanto à sua análise como artefato sociotécnico. Existem trabalhos descritivos sobre adoção (MEUSEL; BIZER; PAULHEIM, 2015; PAULHEIM, 2015), análises críticas pontuais sobre concentração de poder (STORYNEEDLE, 2020; SPORNY, 2011), e estudos especializados sobre verticais como turismo (BALCI et al., 2018) e e-commerce (HEPP, 2015). O presente artigo procura preencher uma lacuna intermediária: produzir revisão sistemática que articule a história técnica, a estrutura conceitual, as escolas de pensamento, as polêmicas documentadas e as perspectivas atuais, sob enquadramento da Economia Institucional aplicada à infraestrutura informacional. O artigo está estruturado em onze seções. A seção 2 apresenta a nota metodológica, explicitando os critérios de Eco (1977) que orientaram a delimitação do objeto e a construção do corpus documental. A seção 3 reconstitui a fundamentação na visão da Web Semântica e em RDF. A seção 4 examina os precursores institucionais — microformatos, RDFa e GoodRelations. A seção 5 trata do lançamento e da consolidação do Schema.org. A seção 6 detalha a arquitetura conceitual do vocabulário. A seção 7 mapeia atores e escolas. A seção 8 analisa a hegemonia das três sintaxes — Microdata, RDFa e JSON-LD — e a inflexão de 2013. A seção 9 examina as polêmicas e vieses documentados. A seção 10 sistematiza adoção e evidências empíricas. A seção 11 discute perspectivas no contexto da busca generativa. A seção 12 conclui com proposições teóricas.

2 NOTA METODOLÓGICA

A construção deste artigo seguiu protocolo de revisão sistemática informado pelas recomendações de Umberto Eco em Como se Faz uma Tese (1977). Eco estabelece quatro critérios para a definição de objeto de pesquisa que se aplicam, com adaptações, à construção do estado da arte sobre tópicos técnicos: o tema deve tratar de objeto reconhecível e definível por terceiros; deve h...

Leia o artigo completo

Baixe gratuitamente o PDF com o conteúdo integral deste artigo, incluindo todas as seções, tabelas, referências bibliográficas e análise completa.

33 min de leitura | Acesso gratuito mediante cadastro

Sumário do artigo

  1. 2 NOTA METODOLÓGICA
  2. 3 FUNDAMENTAÇÃO: A WEB SEMÂNTICA E O FRAMEWORK RDF
  3. 3.1 A formulação original de Berners-Lee
  4. 3.2 RDF e a sucessão de RV. Guha
  5. 4 PRECURSORES INSTITUCIONAIS
  6. 4.1 Microformatos e a aposta de Tantek Çelik
  7. 4.2 RDFa e a normalização W3C
  8. 4.3 GoodRelations e a infraestrutura para e-commerce
  9. 5 LANÇAMENTO E CONSOLIDAÇÃO DO SCHEMA.ORG
  10. 5.1 O anúncio de 2 de junho de 2011
  11. 5.2 Aquisição da Metaweb e o Knowledge Graph
  12. 6 ARQUITETURA CONCEITUAL DO VOCABULÁRIO
  13. 6.1 Tipos, propriedades e hierarquia
  14. 6.2 Mecanismos de extensão e governança técnica
  15. 7 ATORES, ESCOLAS E TRADIÇÕES INTELECTUAIS
  16. 7.1 A escola da Web Semântica clássica
  17. 7.2 A escola pragmática dos microformatos
  18. 7.3 A escola industrial Schema.org
  19. 7.4 A escola JSON-LD e a herança Linked Data
  20. 7.5 A vertente acadêmica europeia: Hepp, Bizer e Paulheim
  21. 8 SINTAXES E A INFLEXÃO DO JSON-LD
  22. 8.1 Microdata, RDFa e JSON-LD: três sintaxes para um mesmo vocabulário
  23. 8.2 A virada do Google e a hegemonia do JSON-LD
  24. 9 POLÊMICAS, VIESES E LIMITES DOCUMENTADOS
  25. 9.1 A questão da centralização
  26. 9.2 Vieses tipológicos e sub-cobertura
  27. 9.3 A controvérsia originária Microdata vs. RDFa
  28. 10 ADOÇÃO E EVIDÊNCIAS EMPÍRICAS
  29. 10.1 Métricas globais de adoção
  30. 10.2 Casos documentados em SEO
  31. 11 PERSPECTIVAS: SCHEMA.ORG E A BUSCA GENERATIVA

Compartilhar

LinkedIn X
Fale no WhatsApp

Nos respeitamos sua privacidade

Utilizamos cookies para melhorar sua experiencia. Ao clicar em "Aceitar todos", voce concorda com o uso de todos os cookies.

Cookies Essenciais (Obrigatorios)

Necessarios para o funcionamento basico do site.

Cookies de Analise

Ajudam a entender como os visitantes interagem com o site.

Cookies de Marketing

Usados para exibir anuncios relevantes.