Schema e dados estruturados na web: fundamentação, genealogia e economia institucional de um padrão de coordenação informacional
Revisão analítica do vocabulário Schema.org e do campo dos dados estruturados na web: raízes na Web Semântica, precursores em RDF, microformatos e GoodRelations, lançamento em 2011 por Bing, Google e Yahoo, e a institucionalização sob arranjo de governança híbrida. Análise sob a Economia Institucional dos custos de transação e da transição para busca generativa.
Resposta rápida
O que é o Schema.org? É um vocabulário compartilhado de dados estruturados anunciado em 2 de junho de 2011 por Bing, Google e Yahoo, ao qual o Yandex aderiu em novembro do mesmo ano. Define mais de 800 tipos e 1.500 propriedades para descrever entidades — produtos, eventos, organizações, pessoas — em uma camada legível por máquinas, complementar ao HTML visual.
Por que importa em 2026? Porque Schema.org está presente em mais de 45 milhões de domínios e em 41% das páginas web indexadas, opera como ponto focal de coordenação entre publicadores e mecanismos de busca, e migra agora para a interface entre conteúdo web e modelos de linguagem em arquiteturas de busca generativa (GEO).
1. Introdução
A premissa segundo a qual a web é um repositório legível por humanos foi modificada de forma silenciosa e progressiva ao longo das duas últimas décadas. A camada de marcação que descreve o significado dos elementos contidos em uma página — não apenas seu posicionamento visual ou sua tipografia, mas sua natureza ontológica como produto, evento, organização ou pessoa — tornou-se infraestrutura crítica para a circulação de informação na economia digital. Este substrato semântico, frequentemente invisível ao usuário final, constitui o objeto deste artigo. Mais especificamente, examina-se o Schema.org, vocabulário de dados estruturados lançado em 2 de junho de 2011.
A relevância do tópico decorre de três ordens de razões. A primeira é quantitativa: dados do Web Data Commons, projeto que extrai anualmente o conteúdo semântico do Common Crawl, registram mais de 106 bilhões de RDF quads descrevendo 3,1 bilhões de entidades em 12,8 milhões de websites distintos. O Web Almanac do HTTP Archive (2024) reporta que o JSON-LD está presente em 41% das páginas indexadas, contra 34% em 2022, enquanto a documentação oficial do Schema.org indica adoção em mais de 45 milhões de domínios.
A segunda razão é institucional: Schema.org atua como ponto focal de coordenação entre publicadores e mecanismos de busca, função que se desloca progressivamente para a interface entre conteúdo web e modelos de linguagem generativos. A terceira razão é teórica: o objeto permite examinar como uma tecnologia social institucionaliza-se através de um consórcio privado, sem mediação estatal direta, e quais são as consequências distributivas dessa configuração — análise que mobiliza o referencial dos custos de transação na linhagem de Coase e Williamson.
A literatura sobre Schema.org é abundante na vertente prática da otimização para mecanismos de busca, mas relativamente escassa quanto à sua análise como artefato sociotécnico. O presente artigo procura preencher uma lacuna intermediária: produzir revisão sistemática que articule a história técnica, a estrutura conceitual, as escolas de pensamento, as polêmicas documentadas e as perspectivas atuais, sob enquadramento da Economia Institucional aplicada à infraestrutura informacional.
2. Nota metodológica
A construção deste artigo seguiu protocolo de revisão sistemática informado pelas recomendações de Umberto Eco em Como se Faz uma Tese (1977). Eco estabelece quatro critérios para a definição de objeto de pesquisa: o tema deve tratar de objeto reconhecível e definível por terceiros; deve haver fontes acessíveis ao pesquisador; as fontes devem ser manejáveis no horizonte de competência disponível; e o quadro metodológico deve estar ao alcance da experiência do candidato. A aplicação desses critérios ao objeto Schema.org produziu três operações específicas — delimitação do objeto, construção do corpus documental e sistema de fichamento — que orientaram a articulação interpretativa apresentada nas seções seguintes.
Schema.org em números (2024)
3. Fundamentação: a Web Semântica e o framework RDF
3.1 A formulação original de Berners-Lee
A intuição que viria a fundamentar Schema.org antecede em mais de uma década a sua formalização. Tim Berners-Lee, em apresentação na Primeira Conferência Internacional WWW realizada em Genebra em 1994, descreveu a web então existente como "um mundo plano e tedioso, despido de significado" do ponto de vista das máquinas. A formulação articulada da Web Semântica como projeto técnico aparece em 1998, no Semantic Web Road Map, e a sua exposição pública mais influente está no artigo The Semantic Web, publicado pela Scientific American em maio de 2001 por Berners-Lee, Hendler e Lassila. O texto define a Web Semântica como "uma extensão da web atual, na qual a informação recebe significado bem definido, permitindo que computadores e pessoas trabalhem em cooperação".
A proposição teórica articulava três camadas operacionais. A primeira era um modelo formal de descrição de recursos, materializado no Resource Description Framework (RDF), padronizado pelo W3C entre 1997 e 2004. RDF representa informação por triplas no formato sujeito-predicado-objeto, em que cada elemento é identificado por um URI. A segunda camada era uma família de vocabulários compartilhados — RDF Schema, depois OWL — que permitiriam a expressão de hierarquias, restrições e regras de inferência. A terceira camada era uma arquitetura de aplicações capazes de raciocinar sobre os dados conectados, antecipando o que mais tarde se denominaria knowledge graphs.
A formulação original revelou-se ambiciosa e, segundo o próprio Berners-Lee em documento de 2006 sobre Linked Data, "amplamente não realizada". Os obstáculos foram de três ordens: a complexidade técnica da pilha RDF/OWL, que demandava competências especializadas dos publicadores; a ausência de aplicações comerciais que retornassem benefício imediato à marcação semântica; e a falta de coordenação entre os atores privados que controlavam os principais pontos de consumo da informação web — os mecanismos de busca.
3.2 RDF e a sucessão de R. V. Guha
A figura técnica que conecta a Web Semântica original ao Schema.org é Ramanathan V. Guha. Indiano formado em Engenharia Mecânica pelo IIT Madras, com PhD em Ciência da Computação por Stanford, Guha foi um dos co-líderes do projeto Cyc (1987–1994) sob orientação de Doug Lenat, no qual contribuiu para o desenvolvimento da linguagem CycL. Em 1995, na Apple Computer sob a direção de Alan Kay, desenvolveu o Meta Content Framework (MCF), formato que introduziu grafos rotulados direcionados como modelo geral para dados estruturados na web. Em 1997, na Netscape, Guha colaborou com Tim Bray para reescrever o MCF em XML, originando o que se tornaria o padrão RDF do W3C.
Guha também é creditado, ao lado de Eckart Walther, pela criação da primeira versão do RSS em março de 1999, como mecanismo de obtenção de conteúdo para o portal personalizado da Netscape. Em 2000, com Dan Brickley, foi co-editor da especificação RDF Schema do W3C. Após passagens por Epinions, Alpiri e IBM Almaden, Guha ingressou no Google em maio de 2005, onde se tornou Google Fellow. É nesse contexto institucional que se torna possível, em 2011, o consórcio que formaliza Schema.org. O caso de Guha exemplifica o rastreamento das fontes recomendado por Eco: para compreender a estrutura conceitual do Schema.org, é necessário reconstituir a genealogia de seus arquitetos, cujas escolhas técnicas anteriores condicionam decisões posteriores em uma cadeia de path-dependence característica de tecnologias informacionais.
4. Precursores institucionais
4.1 Microformatos e a aposta de Tantek Çelik
Antes do consórcio de 2011, a tentativa mais influente de marcação semântica leve foi o movimento dos microformatos, articulado a partir de 2003 sob liderança de Tantek Çelik, então Chief Technologist da Technorati. Os microformatos partem de um princípio inverso ao da pilha RDF/OWL: em vez de exigir vocabulários formais e identificadores globais, propõem reutilizar atributos de classe HTML existentes para anotar significado em padrões já consolidados. O hCard, proposto em 2004, mapeia uma a uma as propriedades do padrão vCard em classes HTML; o hCalendar replica iCalendar; o XFN expressa relações sociais.
A aposta dos microformatos era pragmática: "projetar para humanos primeiro, máquinas em segundo lugar". Esta orientação produziu adoção significativa em verticais específicos — Yahoo Local para listagens de negócios, Flickr para perfis de usuários, WordPress com suporte nativo. Contudo, os microformatos enfrentaram limitações estruturais: a reutilização do atributo class colidia com sua função primária na cascata CSS; a ausência de identificadores globais impedia a interligação com a nuvem de Linked Open Data; e a fragmentação em múltiplos formatos especializados multiplicava o custo cognitivo de adoção.
4.2 RDFa e a normalização W3C
Em paralelo, o W3C produziu uma alternativa formal para incorporar metadados semânticos em documentos HTML: o RDFa, padronizado em 2008 e revisado em 2012 com a versão RDFa 1.1 Lite. O RDFa preservava a expressividade do modelo RDF — incluindo a capacidade de expressar grafos com ciclos e identificadores globais — em troca de maior verbosidade na marcação. Sua adoção foi sustentada principalmente pelo protocolo Open Graph do Facebook, lançado em 2010, que utilizou subconjunto de RDFa para descrever páginas a partir do botão "like".
4.3 GoodRelations e a infraestrutura para e-commerce
A vertente de e-commerce mereceu tratamento autônomo na figura da ontologia GoodRelations, desenvolvida desde 2007 por Martin Hepp, então professor da Universität der Bundeswehr München. Hepp publicou a especificação inaugural em 2008, formalizando a representação das relações entre comprador, vendedor, produtos e ofertas em RDF/OWL DL. Em 8 de novembro de 2012, após dois anos de trabalho conjunto com os patrocinadores do Schema.org, GoodRelations foi quase integralmente incorporada ao vocabulário, tornando-se o núcleo oficial de e-commerce de Schema.org.
A integração GoodRelations–Schema.org constitui caso paradigmático de absorção institucional. Hepp manteve a ontologia original como referência conceitual, mas consentiu que a maior parte dos dados publicados na web migrasse para o espaço schema.org. Da perspectiva da Economia Institucional, o caso ilustra como organizações periféricas obtêm escala através da inserção em arranjos hegemônicos, ao custo da renúncia parcial de autonomia de governança. A operação prática deste tipo de marcação é um dos pilares de um trabalho consistente de SEO para e-commerce.
5. Lançamento e consolidação do Schema.org
5.1 O anúncio de 2 de junho de 2011
Schema.org foi anunciado simultaneamente por Bing, Google e Yahoo em 2 de junho de 2011. O comunicado da Bing descrevia a iniciativa como "esforço para criar e suportar um conjunto comum de schemas para marcação de dados estruturados em páginas web". O posicionamento estratégico era explícito: oferecer aos webmasters um único vocabulário em vez de múltiplos formatos concorrentes, com a promessa de que o investimento em marcação seria capitalizado em todos os pontos de consumo. Em novembro de 2011, Yandex aderiu ao consórcio, completando a presença dos quatro maiores mecanismos de busca em escala global naquele momento.
A escolha inicial do formato de marcação foi a Microdata, sintaxe definida no rascunho HTML5 que utiliza atributos itemscope, itemtype e itemprop diretamente no markup. Esta escolha foi controversa. Manu Sporny, fundador da Digital Bazaar e arquiteto principal do JSON-LD, publicou no dia seguinte ao lançamento um texto intitulado The False Choice of Schema.org, argumentando que a opção pela Microdata em detrimento da RDFa representava decisão técnica sub-ótima, motivada por considerações estratégicas dos patrocinadores. A controvérsia foi resolvida em 2013, quando o Schema.org passou a aceitar formalmente JSON-LD, e em 2015, quando o Google ampliou seu suporte ao formato.
5.2 Aquisição da Metaweb e o Knowledge Graph
O contexto imediato do lançamento de Schema.org inclui movimento estratégico anterior do Google: a aquisição da Metaweb em julho de 2010, que trouxe consigo a base de dados Freebase. A absorção de Metaweb removeu um competidor potencial e simultaneamente forneceu ao Google a base inicial do que seria, em maio de 2012, o Knowledge Graph — sistema de painéis de conhecimento que populariza, junto ao público, os efeitos visíveis da estruturação semântica.
Leitura institucional consistente: a sequência aquisição-lançamento-Knowledge Graph (2010–2011–2012) revela arquitetura completa de captura, organização e exibição de dados estruturados. Sob a perspectiva de Williamson (1985), Schema.org reduz radicalmente os custos de transação informacionais entre publicadores e mecanismos de busca, mas o faz em arranjo no qual o agente dominante captura proporção desproporcional do excedente gerado pela coordenação.
6. Arquitetura conceitual do vocabulário
6.1 Tipos, propriedades e hierarquia
Schema.org organiza-se como hierarquia de tipos com raiz na classe Thing. Em sua publicação inaugural de 2011 contava com 297 classes e 187 relações; em 2016 havia chegado a 638 classes e 965 relações; em 2024, contagens atualizadas indicam aproximadamente 817 tipos e 1.518 propriedades. As classes principais derivadas de Thing incluem Person, Organization, Place, Event, CreativeWork, Product, Action e Intangible — esta última agregando entidades abstratas como Offer, Rating, Quantity e StructuredValue. As relações são polimórficas: admitem múltiplos domínios e contradomínios, característica que confere ao vocabulário maior flexibilidade de uso, ao custo de menor rigor formal.
A escolha de Thing como raiz e a tolerância a polimorfismo expressam decisão deliberada de afastamento da pureza ontológica do OWL DL. Os arquitetos de Schema.org defendem essa decisão em termos pragmáticos: o vocabulário não precisa sustentar inferência automatizada complexa, e sim oferecer estrutura suficiente para que mecanismos de busca extraiam fatos básicos de páginas heterogêneas em grande escala. Ao permitir, por exemplo, que uma propriedade location aceite tanto uma string quanto uma instância de Place, o vocabulário aumenta sua acessibilidade aos publicadores em troca de inconsistências semânticas que, apenas em certos casos, comprometem a utilidade dos dados extraídos.
Hierarquia tipológica do Schema.org
Thing (raiz)
├── Person
├── Organization
│ └── LocalBusiness, Corporation, NGO
├── Place
│ └── LocalBusiness, TouristAttraction, City
├── Event
│ └── Festival, Concert, BusinessEvent
├── CreativeWork
│ └── Article, Book, Movie, Recipe, Course
├── Product
│ └── IndividualProduct, ProductModel, Vehicle
├── Action
│ └── BuyAction, ViewAction, ReviewAction
└── Intangible
└── Offer, Rating, Quantity, MonetaryAmount
6.2 Mecanismos de extensão e governança técnica
Schema.org dispõe de dois mecanismos formais de extensão. O primeiro é a hierarquia de extensões hospedadas no próprio domínio, como auto.schema.org (automotivo) e bib.schema.org (bibliográfico), que mantém padrão de nomeação consistente e supervisão centralizada. O segundo é o uso de propriedades customizadas prefixadas com underscore (por exemplo, _internalId), permitindo que organizações estendam o vocabulário sem coordenação prévia, ao custo de que tais extensões não sejam interpretadas pelos mecanismos de busca. A governança formal opera através do Schema.org Community Group, hospedado no W3C desde abril de 2015, com discussão pública em listas e desenvolvimento técnico em GitHub.
A combinação entre governança formalmente aberta e patrocínio efetivamente concentrado constitui especificidade institucional do Schema.org. Decisões técnicas substantivas — admissão de novos tipos, deprecação de termos, alterações em propriedades existentes — são debatidas publicamente, mas a aceitação final permanece condicionada ao apoio dos patrocinadores, em particular do Google, dado que é nele que se materializa o incentivo prático à conformidade (rich results, painéis de conhecimento, citações em respostas generativas). Yoast (2022) sintetiza a situação ao observar que "hoje é principalmente o Google que gerencia e contribui para Schema, dado que Yahoo, Yandex e outros não fazem parte ativa do cenário".
7. Atores, escolas e tradições intelectuais
7.1 A escola da Web Semântica clássica
A primeira escola identificável é a tradição W3C/RDF, herdeira direta da formulação de Berners-Lee. Seus expoentes incluem o próprio Berners-Lee, James Hendler, Ora Lassila e Dan Brickley. Esta escola privilegia a expressividade formal, a pilha completa RDF/RDFS/OWL/SPARQL, a interligação por URIs globais e o ideal do Linked Open Data. Sua institucionalização ocorre através do W3C, de conferências como ISWC e ESWC, e de iniciativas como DBpedia. A crítica recorrente é seu déficit de adoção comercial: apesar de duas décadas de produção normativa, os artefatos derivados desta tradição permanecem majoritariamente em ambientes acadêmicos.
7.2 A escola pragmática dos microformatos
A segunda escola é a tradição microformats, articulada em torno de Tantek Çelik, Brian Suda, Eric Meyer e Matt Mullenweg. Sua premissa central é a primazia do humano sobre a máquina e a reutilização de padrões já interoperáveis (vCard, iCalendar). Esta escola desconfia das ontologias formais e da pilha RDF, considerando-as "projetadas por comitês". Seu legado direto inclui Open Graph (Facebook) e a evolução posterior em microformats2, bem como influência sobre o movimento IndieWeb.
7.3 A escola industrial Schema.org
A terceira escola, hegemônica desde 2011, é a corrente Schema.org propriamente dita, representada por R. V. Guha, Dan Brickley, Steve Macbeth (Microsoft) e os engenheiros do Yandex. Sua orientação combina elementos das duas anteriores: preserva a infraestrutura conceitual derivada de RDF, mas adota pragmatismo radical na ausência de imposição de inferência formal e na flexibilidade tipológica. Seu motor de adoção não é teórico, e sim econômico: a possibilidade de exibição em rich results funciona como incentivo material à conformidade.
7.4 A escola JSON-LD e a herança Linked Data
A quarta escola, parcialmente sobreposta às anteriores, organiza-se em torno do JSON-LD e tem em Manu Sporny seu expoente principal. Sporny fundou a Digital Bazaar em 2002 e foi editor da especificação JSON-LD, recomendada pelo W3C em 16 de janeiro de 2014. A escola JSON-LD opera tradução pragmática do modelo RDF para sintaxe familiar a desenvolvedores web, permitindo que dados estruturados sejam embarcados em scripts isolados (<script type="application/ld+json">) sem alterar a estrutura HTML.
7.5 A vertente acadêmica europeia: Hepp, Bizer e Paulheim
Por fim, registra-se uma vertente acadêmica europeia centrada em Universität Mannheim (Christian Bizer, Heiko Paulheim) e na Universität der Bundeswehr München (Martin Hepp). Esta tradição produz o instrumental empírico que torna possível medir adoção e qualidade dos dados estruturados publicados — Web Data Commons, GoodRelations, Product Types Ontology — e desempenha papel crítico-construtivo, identificando inconsistências, perfis de uso e oportunidades de extensão.
8. Sintaxes e a inflexão do JSON-LD
8.1 Microdata, RDFa e JSON-LD: três sintaxes para um mesmo vocabulário
Schema.org é, em rigor, um vocabulário independente da sintaxe utilizada para sua serialização. Três sintaxes principais coexistem. A Microdata, originária do rascunho HTML5, embute as anotações em atributos de elementos HTML (itemscope, itemtype, itemprop), com vantagem de proximidade ao conteúdo visível e desvantagem de poluir o markup. A RDFa, padronizada pelo W3C, oferece expressividade comparável a RDF puro, ao custo de verbosidade ainda maior. O JSON-LD, formalmente recomendado pelo W3C em janeiro de 2014, separa a marcação semântica do markup HTML, embarcando-a em script isolado.
Quadro 1 — Comparação entre as três sintaxes
| Dimensão | Microdata | RDFa | JSON-LD |
|---|---|---|---|
| Padronização | HTML5 (WHATWG) | W3C 2008/2012 | W3C 2014 |
| Localização | Inline no HTML | Inline no HTML | Script separado |
| Expressividade | Restrita (árvores) | Plena RDF | Plena RDF |
| Geração dinâmica | Difícil | Difícil | Trivial |
| Adoção 2024 | 26% | 62% (Open Graph dominante) | 41% |
| Recomendação Google | Aceita | Aceita | Preferencial |
8.2 A virada do Google e a hegemonia do JSON-LD
A adoção do JSON-LD pelo Schema.org como formato suportado em junho de 2013 e, sobretudo, sua promoção pelo Google como sintaxe preferencial em 2015, alteraram decisivamente o equilíbrio entre as três opções. O motivo prático foi a dificuldade de manter sincronizadas marcações inline (Microdata, RDFa) e bases de dados internas em sites complexos. O JSON-LD permite gerar a marcação a partir do banco de dados em tempo de renderização, sem que a estrutura semântica esteja acoplada à hierarquia DOM da página — característica fundamental para implementações de Schema em projetos de desenvolvimento web com arquiteturas modernas.
Path-dependence em ação: Sporny havia argumentado em 2011 que a opção pela Microdata era erro técnico; em 2014, com o W3C recomendando JSON-LD, e em 2015, com o Google operacionalizando essa preferência, o argumento foi parcialmente vindicado pelos próprios atores que originalmente o haviam rejeitado. A hegemonia do JSON-LD não restituiu o protagonismo da Web Semântica clássica, mas consolidou a hegemonia do Schema.org como vocabulário, agora disponibilizado em formato mais acessível à indústria.
9. Polêmicas, vieses e limites documentados
9.1 A questão da centralização
A polêmica mais bem documentada diz respeito à concentração efetiva de seu controle no Google. O texto de referência é a análise de Storyneedle (2020), que articula três argumentos. O primeiro é histórico: Google constituiu, com a aquisição da Metaweb (2010), o lançamento do Schema.org (2011) e a operação do Knowledge Graph (2012), arquitetura integrada na qual o vocabulário público alimenta uma infraestrutura privada. O segundo é estrutural: o vocabulário Schema.org é orientado predominantemente para entidades comerciais — produtos, ofertas, organizações, eventos, locais — e oferece cobertura limitada para entidades não-comerciais. O terceiro é funcional: para que o consumidor final colha valor da estruturação semântica, ele precisa, na prática, utilizar produtos do Google, configurando paradoxo entre a abertura formal do vocabulário e a captura do excedente.
A crítica não implica que o Schema.org seja artefato de má-fé, mas que sua arquitetura institucional produz externalidades distributivas que merecem exame. Da perspectiva da Economia Institucional, o caso aproxima-se do que North (1990) denomina arranjos institucionais de equilíbrio sub-ótimo: configurações estáveis nas quais o ganho agregado de coordenação é apropriado de forma desigual pelos atores envolvidos. A ausência de mediação estatal direta no caso do Schema.org distingue-a de padrões análogos em outros setores, como ISO ou IEEE.
9.2 Vieses tipológicos e sub-cobertura
Análises empíricas sobre a qualidade e a distribuição da marcação Schema.org documentam vieses sistemáticos. Paulheim (2015), em análise do corpus Web Data Commons, identifica que classes comerciais (Product, Offer, LocalBusiness) recebem cobertura proporcionalmente maior do que classes culturais ou educacionais. Análise específica do domínio turístico revela que muitas anotações Hotel não incluem informações de endereço, e que reservas e ofertas concentram-se em poucos agregadores de grande escala, reduzindo a utilidade real do vocabulário para o ecossistema descentralizado de operadores menores.
Outro viés documentado refere-se à inflação semântica em pacotes ou plugins automatizados. Casos reportados na literatura aplicada mostram que pacotes de SEO inserem marcação Schema.org para dezenas de tipos não pertinentes ao conteúdo da página, na expectativa de "convencer o Google" de que a página é relevante para múltiplos tópicos. Este uso adversarial — que aproxima Schema.org da história do keyword stuffing — produz degradação informacional e tende a estimular respostas algorítmicas dos mecanismos de busca, reduzindo o peso da marcação como sinal de qualidade.
9.3 A controvérsia originária Microdata vs. RDFa
A polêmica fundadora merece registro pela sua densidade institucional. Manu Sporny argumentou em 2011 que a escolha por Microdata reproduzia padrão de exclusão observado em iniciativas anteriores: os patrocinadores do Schema.org adotaram sintaxe que deixava as comunidades de Linked Data e Web Semântica em posição subalterna. A controvérsia foi parcialmente resolvida pela aceitação posterior de RDFa e, principalmente, JSON-LD, mas o episódio revelou tensão constitutiva: vocabulários compartilhados podem ser tecnicamente neutros, mas as decisões sobre formatos de serialização são politicamente carregadas, na medida em que afetam quais comunidades de prática são incluídas ou excluídas dos benefícios da padronização.
10. Adoção e evidências empíricas
10.1 Métricas globais de adoção
As principais fontes empíricas sobre adoção de Schema.org são três: o Web Data Commons, projeto da Universidade de Mannheim coordenado por Christian Bizer, que extrai anualmente estruturas semânticas do Common Crawl; o HTTP Archive Web Almanac, que reporta presença de JSON-LD em 41% das páginas em 2024 (contra 34% em 2022), Microdata em 26% e RDFa em 62%; e a documentação oficial do Schema.org, que reporta mais de 45 milhões de domínios e 450 bilhões de objetos schema.org em 2024.
Quadro 2 — Evolução da adoção do Schema.org
| Ano | Páginas com marcação | Domínios | Fonte |
|---|---|---|---|
| 2013 | aprox. 4 milhões de domínios | 4 milhões | Guha (ISWC 2013) |
| 2015 | 31,3% (10 bi de páginas) | aprox. 12 milhões | Brickley, Guha e Macbeth (2016) |
| 2022 | 34% (JSON-LD) | dezenas de milhões | HTTP Archive Web Almanac |
| 2024 | 41% (JSON-LD); 26% (Microdata); 62% (RDFa/OG) | >45 milhões | HTTP Archive; Schema.org |
| 2024 | 3,1 bi de entidades em 106 bi RDF quads | 12,8 milhões PLDs | Web Data Commons |
10.2 Casos documentados em SEO
A literatura aplicada sobre o impacto do Schema.org em métricas de SEO é abundante e exige cautela. Estudos controlados pela SearchPilot (2024) demonstraram que adicionar marcação FAQ em páginas de e-commerce produziu uplift de 9% em tráfego orgânico, enquanto adicionar dateModified estruturado em landing pages locais produziu resultado inconclusivo. Estudos agregados sintetizados pela SearchEngineJournal (2020) reportam ganhos médios de CTR entre 20% e 40% em páginas com rich results, embora variando substancialmente por vertical e por concorrência.
É importante observar a posição oficial do Google: porta-vozes da empresa têm reiterado que Schema.org não é fator de ranqueamento direto. Os ganhos atribuíveis ao Schema.org operam, portanto, por canal indireto — maior CTR derivado de rich results, maior elegibilidade para featured snippets e painéis de conhecimento, e potencial sinalização de qualidade para algoritmos de classificação. Esta arquitetura indireta produz dificuldade metodológica nos estudos de impacto: separar o efeito do Schema.org propriamente dito de melhorias correlatas no conteúdo, na velocidade da página ou na arquitetura de informação requer experimentos controlados que são possíveis apenas em ambientes empresariais com recursos analíticos suficientes — operação característica de Performance Marketing e Analytics & BI maduros.
11. Perspectivas: Schema.org e a busca generativa
A inflexão mais relevante para a próxima década refere-se à inserção do Schema.org em arquiteturas de busca generativa por modelos de linguagem (LLMs). Três tendências merecem registro.
A primeira é a saída de R. V. Guha do Google em agosto de 2024 e seu ingresso na Microsoft, onde concebeu o NLWeb (Natural Language Web) — proposta de protocolo aberto que permitiria a websites operar interfaces conversacionais nativas, utilizando Schema.org como infraestrutura de descrição. A iniciativa sinaliza que o próprio arquiteto principal do Schema.org reconhece que a arquitetura original, otimizada para busca tradicional, requer adaptação para o paradigma generativo.
A segunda é a emergência da chamada Generative Engine Optimization (GEO), campo aplicado que estuda como otimizar conteúdo para citação por sistemas como ChatGPT, Claude, Perplexity, Google AI Overviews e Gemini. Pesquisa do Princeton KDD (2024) reporta lifts de até 40% em visibilidade nas respostas generativas para conteúdos com estruturação semântica adequada. O argumento central da GEO é que Schema.org, embora nem sempre seja consumido diretamente pelos LLMs, opera como sinal de organização semântica que melhora a probabilidade de extração e citação correta pelo modelo. A evidência empírica é incipiente, e há divergência sobre se LLMs efetivamente lêem JSON-LD ou se seu desempenho com conteúdo estruturado decorre da clareza textual induzida pela própria disciplina de marcação.
A terceira é a estabilização de uma camada complementar de protocolos voltados para a interlocução com agentes autônomos: NLWeb (Microsoft), Model Context Protocol (Anthropic), e propostas como llms.txt para sinalização de permissões de uso. Schema.org não é substituído por esses protocolos, mas se combina com eles em arquitetura mais ampla na qual a estruturação semântica ocupa posição infraestrutural. Para publicadores web e empresas, a implicação prática é que a marcação Schema.org continua sendo investimento sensato, ainda que os mecanismos de captura de valor estejam migrando da exposição em SERPs para a citação em respostas generativas — ponto central para qualquer estratégia atual de SEO e Content Marketing.
Linha do tempo: do MCF ao NLWeb
12. Considerações finais
A revisão desenvolvida neste artigo permite formular três proposições teóricas.
A primeira é que Schema.org constitui caso paradigmático de tecnologia social no sentido formulado por Nelson e Sampat (2001): um padrão de coordenação que reduz custos de transação informacionais em escala global, sem cuja existência o ecossistema atual de busca, descoberta e citação seria operacionalmente inviável. A escala da adoção — mais de 45 milhões de domínios, 41% das páginas web, 3,1 bilhões de entidades indexadas em datasets públicos — é evidência suficiente da relevância sistêmica.
A segunda é que o arranjo institucional sob o qual Schema.org foi produzido — consórcio privado entre concorrentes oligopolistas, com governança formalmente aberta no W3C e patrocínio efetivamente concentrado no Google — produz tensão constitutiva entre eficiência de coordenação e equidade distributiva. O caso ilustra que padrões abertos não são automaticamente padrões democráticos: a arquitetura institucional importa tanto quanto a arquitetura técnica para determinar quem captura o excedente gerado pela coordenação. Esta observação tem implicações para o desenho de futuras infraestruturas semânticas, particularmente as que se constituem em torno de modelos de linguagem generativos.
A terceira diz respeito à path-dependence técnica documentada ao longo do artigo. As escolhas iniciais — uso de Microdata em 2011, hierarquia tipológica baseada em Thing, polimorfismo de propriedades — condicionaram a evolução subsequente do vocabulário e tornam custosa qualquer reformulação substantiva. O ingresso de Guha na Microsoft e o desenvolvimento do NLWeb sinalizam que a próxima fronteira pode demandar arquitetura adicional, sobreposta ao Schema.org existente, em vez de sua substituição. Este cenário é consistente com o que North (1990) denomina lock-in institucional.
A aplicação dos princípios metodológicos de Eco à construção do estado da arte sobre Schema.org confirma a pertinência do autor mesmo para objetos técnicos contemporâneos. A delimitação rigorosa do objeto, o rastreamento das fontes primárias e a explicitação dos limites do horizonte de pesquisa conservam validade independentemente da natureza do tópico. Para a Economia Institucional aplicada à infraestrutura digital, o caso Schema.org oferece material empírico denso para reflexão sobre como tecnologias sociais se constituem, se difundem e produzem assimetrias distributivas em ambientes nos quais a regulação estatal direta é mínima.
Da teoria à prática
Aplicar Schema.org corretamente em um site exige três decisões articuladas: escolha das classes adequadas ao conteúdo (evitar inflação semântica); coerência entre marcação e conteúdo visível (evitar penalizações por conteúdo oculto ou contraditório); e manutenção contínua conforme o vocabulário evolui (817 tipos hoje, mais amanhã). Essas decisões integram operações de SEO técnico, desenvolvimento web e governança editorial — combinação que a Agência Integrare opera sob enquadramento de consultoria em marketing digital baseada em fundamentos institucionais. Casos práticos podem ser conferidos no portfólio.
Referências
AGGARWAL, P. et al. GEO: Generative Engine Optimization. In: Proceedings of the 30th ACM SIGKDD Conference on Knowledge Discovery and Data Mining. Princeton, 2024.
BALCI, B. T. et al. Analysis of Schema.org Usage in the Tourism Domain. arXiv:1802.05948, 2018.
BERNERS-LEE, T. Linked Data — Design Issues. W3C, 2006. Disponível em: w3.org/DesignIssues/LinkedData.html.
BERNERS-LEE, T.; HENDLER, J.; LASSILA, O. The Semantic Web. Scientific American, v. 284, n. 5, p. 34–43, maio 2001. Disponível em: scientificamerican.com.
BING. Introducing Schema.org: Bing, Google and Yahoo Unite to Build the Web of Objects. Bing Blogs, 2 jun. 2011. Disponível em: blogs.bing.com.
BRICKLEY, D.; GUHA, R. V.; MACBETH, S. Schema.org: Evolution of Structured Data on the Web. Communications of the ACM, v. 59, n. 2, p. 44–51, fev. 2016.
ÇELIK, T. hCard 1.0 Specification. Microformats Wiki, 2005. Disponível em: microformats.org/wiki/hcard.
ECO, U. Como se Faz uma Tese. 16. ed. São Paulo: Perspectiva, 2007. (Original italiano: Come si fa una tesi di laurea, 1977).
HEPP, M. GoodRelations now fully integrated with schema.org. Mensagem à lista [email protected], 8 nov. 2012. Disponível em: lists.w3.org.
HTTP ARCHIVE. Web Almanac 2024 — Structured Data. 2024. Disponível em: almanac.httparchive.org.
MEUSEL, R.; BIZER, C.; PAULHEIM, H. A Web-scale Study of the Adoption and Evolution of the schema.org Vocabulary over Time. WIMS, 2015.
NELSON, R.; SAMPAT, B. Making sense of institutions as a factor shaping economic performance. Journal of Economic Behavior & Organization, v. 44, n. 1, p. 31–54, 2001.
NORTH, D. C. Institutions, Institutional Change and Economic Performance. Cambridge: Cambridge University Press, 1990.
PAULHEIM, H. What the Adoption of schema.org Tells About Linked Open Data. CEUR Workshop Proceedings, v. 1362, 2015.
PEETERS, R.; BRINKMANN, A.; BIZER, C. The Web Data Commons Schema.org Table Corpora. ACM Web Conference 2024.
SCHEMA.ORG. Schema.org Home. Disponível em: schema.org.
SPORNY, M. The False Choice of Schema.org. Digital Bazaar, 3 jun. 2011. Disponível via Wayback Machine.
STORYNEEDLE. Time to End Google's Domination of Schema.org. 2020. Disponível em: storyneedle.com.
W3C. JSON-LD 1.1 — A JSON-based Serialization for Linked Data. W3C Recommendation, 2020. Disponível em: w3.org/TR/json-ld11.
WEB DATA COMMONS. Microdata, RDFa, JSON-LD, and Microformat Data Sets. Universität Mannheim, 2025. Disponível em: webdatacommons.org.
WILLIAMSON, O. E. The Economic Institutions of Capitalism. New York: Free Press, 1985.
YOAST. The history of Schema: towards an easy to understand web. 2022. Disponível em: yoast.com.
Núcleo de Pesquisa Aplicada — Agência Integrare
A Integrare é especializada em soluções de integração e automação de processos empresariais, ajudando organizações a otimizar suas operações e alcançar melhores resultados através da tecnologia.
Receba insights exclusivos sobre integração e automação
Assine nossa newsletter e fique por dentro das últimas tendências, melhores práticas e estudos de caso em tecnologia empresarial.
Sem spam. Cancele quando quiser. 🔒
Artigos relacionados
Marketing não é despesa: é ativo. E o setor demorou para entender isso.
O mercado publicitário brasileiro movimentou R$ 95,2 bilhões em 2025, mas a maior parte entra na DRE como despesa, sem deixar ativo mensurável. Este artigo defende a reorganização do marketing como investimento em capacidade, com consequências diretas sobre planejamento financeiro, governança e valuation.
Marketing como Infraestrutura de Redução de Custos de Transação: Uma Abordagem pela Economia Institucional
Por que marketing deveria ser tratado como infraestrutura econômica e não como despesa variável? Este artigo reconceituou o marketing a partir da Teoria dos Custos de Transação (Coase, Williamson, North), demonstrando que investimentos estratégicos em marketing reduzem custos de busca, negociação e execução para ambos os lados da transação. Analisa a decisão make-or-buy, o contexto brasileiro de custos estruturalmente elevados e o efeito de retornos crescentes via path dependence.
A Economia da Autenticidade: Marketing como Infraestrutura de Redução de Custos de Transação e o Conceito de Público-Ideal
Por que a autenticidade corporativa não é questão moral, mas condição de eficiência alocativa? Este artigo desenvolve uma teoria econômica da autenticidade fundamentada na Economia dos Custos de Transação, na teoria da sinalização e na economia evolucionária. Introduz o conceito de público-ideal como distinção analítica do público-alvo convencional e reconceituou o marketing como infraestrutura de coordenação que reduz custos de transação.