Schema.org e dados estruturados na web: fundamentação, genealogia e economia institucional de um padrão de coordenação informacional
Resumo
O presente artigo desenvolve uma revisão analítica do vocabulário Schema.org e do campo mais amplo dos dados estruturados na web, examinando suas raízes na visão da Web Semântica de Berners-Lee, Hendler e Lassila (2001), suas precondições técnicas em RDF, microformatos e GoodRelations, e sua institucionalização a partir do consórcio formado em 2 de junho de 2011 por Bing, Google e Yahoo, ao qual Yandex se associou em novembro do mesmo ano. A investigação articula três planos de análise: o plano histórico, que reconstitui a trajetória do vocabulário desde seus precursores em pesquisa de Web Semântica até sua estabilização em treze versões; o plano técnico-conceitual, que examina a estrutura de tipos, propriedades e hierarquias; e o plano institucional-econômico, que interpreta Schema.org como tecnologia social de coordenação que reduz custos de transação informacionais entre publicadores e mecanismos de busca, em arranjo cuja governança formal aberta convive com captura efetiva por agente dominante. Os resultados indicam que Schema.org configura caso paradigmático de tensão entre coordenação cooperativa e concentração distributiva.
Introdução
A premissa segundo a qual a web é um repositório legível por humanos foi modificada de forma silenciosa e progressiva ao longo das duas últimas décadas. A camada de marcação que descreve o significado dos elementos contidos em uma página — não apenas seu posicionamento visual ou sua tipografia, mas sua natureza ontológica como produto, evento, organização ou pessoa — tornou-se infraestrutura crítica para a circulação de informação na economia digital. Este substrato semântico, frequentemente invisível ao usuário final, constitui o objeto deste artigo. Mais especificamente, examina-se o Schema.org, vocabulário de dados estruturados lançado em 2 de junho de 2011 por Bing, Google e Yahoo, ao qual Yandex se associou em novembro do mesmo ano (BRICKLEY; GUHA; MACBETH, 2016). A relevância do tópico decorre de três ordens de razões. A primeira é quantitativa: dados do Web Data Commons, projeto que extrai anualmente o conteúdo semântico do Common Crawl, registram mais de 106 bilhões de RDF quads descrevendo 3,1 bilhões de entidades em 12,8 milhões de websites distintos (PEETERS; BRINKMANN; BIZER, 2024). O Web Almanac do HTTP Archive (2024) reporta que o JSON-LD está presente em 41% das páginas indexadas, contra 34% em 2022, enquanto a documentação oficial do Schema.org indica adoção em mais de 45 milhões de domínios. A segunda razão é institucional: Schema.org atua como ponto focal de coordenação entre publicadores e mecanismos de busca, função que se desloca progressivamente para a interface entre conteúdo web e modelos de linguagem generativos. A terceira razão é teórica: o objeto permite examinar como uma tecnologia social — no sentido atribuído por Nelson e Sampat (2001) — institucionaliza-se através de um consórcio privado, sem mediação estatal direta, e quais são as consequências distributivas dessa configuração. A literatura sobre Schema.org é abundante na vertente prática da otimização para mecanismos de busca, mas relativamente escassa quanto à sua análise como artefato sociotécnico. Existem trabalhos descritivos sobre adoção (MEUSEL; BIZER; PAULHEIM, 2015; PAULHEIM, 2015), análises críticas pontuais sobre concentração de poder (STORYNEEDLE, 2020; SPORNY, 2011), e estudos especializados sobre verticais como turismo (BALCI et al., 2018) e e-commerce (HEPP, 2015). O presente artigo procura preencher uma lacuna intermediária: produzir revisão sistemática que articule a história técnica, a estrutura conceitual, as escolas de pensamento, as polêmicas documentadas e as perspectivas atuais, sob enquadramento da Economia Institucional aplicada à infraestrutura informacional. O artigo está estruturado em onze seções. A seção 2 apresenta a nota metodológica, explicitando os critérios de Eco (1977) que orientaram a delimitação do objeto e a construção do corpus documental. A seção 3 reconstitui a fundamentação na visão da Web Semântica e em RDF. A seção 4 examina os precursores institucionais — microformatos, RDFa e GoodRelations. A seção 5 trata do lançamento e da consolidação do Schema.org. A seção 6 detalha a arquitetura conceitual do vocabulário. A seção 7 mapeia atores e escolas. A seção 8 analisa a hegemonia das três sintaxes — Microdata, RDFa e JSON-LD — e a inflexão de 2013. A seção 9 examina as polêmicas e vieses documentados. A seção 10 sistematiza adoção e evidências empíricas. A seção 11 discute perspectivas no contexto da busca generativa. A seção 12 conclui com proposições teóricas.
2 NOTA METODOLÓGICA
A construção deste artigo seguiu protocolo de revisão sistemática informado pelas recomendações de Umberto Eco em Como se Faz uma Tese (1977). Eco estabelece quatro critérios para a definição de objeto de pesquisa que se aplicam, com adaptações, à construção do estado da arte sobre tópicos técnicos: o tema deve tratar de objeto reconhecível e definível por terceiros; deve h...
Leia o artigo completo
Baixe gratuitamente o PDF com o conteúdo integral deste artigo, incluindo todas as seções, tabelas, referências bibliográficas e análise completa.
33 min de leitura | Acesso gratuito mediante cadastro
Sumário do artigo
- 2 NOTA METODOLÓGICA
- 3 FUNDAMENTAÇÃO: A WEB SEMÂNTICA E O FRAMEWORK RDF
- 3.1 A formulação original de Berners-Lee
- 3.2 RDF e a sucessão de RV. Guha
- 4 PRECURSORES INSTITUCIONAIS
- 4.1 Microformatos e a aposta de Tantek Çelik
- 4.2 RDFa e a normalização W3C
- 4.3 GoodRelations e a infraestrutura para e-commerce
- 5 LANÇAMENTO E CONSOLIDAÇÃO DO SCHEMA.ORG
- 5.1 O anúncio de 2 de junho de 2011
- 5.2 Aquisição da Metaweb e o Knowledge Graph
- 6 ARQUITETURA CONCEITUAL DO VOCABULÁRIO
- 6.1 Tipos, propriedades e hierarquia
- 6.2 Mecanismos de extensão e governança técnica
- 7 ATORES, ESCOLAS E TRADIÇÕES INTELECTUAIS
- 7.1 A escola da Web Semântica clássica
- 7.2 A escola pragmática dos microformatos
- 7.3 A escola industrial Schema.org
- 7.4 A escola JSON-LD e a herança Linked Data
- 7.5 A vertente acadêmica europeia: Hepp, Bizer e Paulheim
- 8 SINTAXES E A INFLEXÃO DO JSON-LD
- 8.1 Microdata, RDFa e JSON-LD: três sintaxes para um mesmo vocabulário
- 8.2 A virada do Google e a hegemonia do JSON-LD
- 9 POLÊMICAS, VIESES E LIMITES DOCUMENTADOS
- 9.1 A questão da centralização
- 9.2 Vieses tipológicos e sub-cobertura
- 9.3 A controvérsia originária Microdata vs. RDFa
- 10 ADOÇÃO E EVIDÊNCIAS EMPÍRICAS
- 10.1 Métricas globais de adoção
- 10.2 Casos documentados em SEO
- 11 PERSPECTIVAS: SCHEMA.ORG E A BUSCA GENERATIVA