DADOS CONECTADOS

O conceito de Dados Conectados pode ser definido como um conjunto de Boas Práticas para publicar e conectar conjuntos de dados estruturados na Web, com o intuito de criar uma “Web de Dados” (BIZER; HEATH; BERNERS-LEE, 2009). A Web de Dados cria inúmeras oportunidades para a integração semântica dos próprios dados, motivando o desenvolvimento de novos tipos de aplicações e ferramentas, como navegadores e motores de busca (ISOTANI; BITTENCOURT, 2015). 

Para um melhor entendimento sobre a Web de Dados, pode-se estabelecer um paralelo entre a Web de Documentos (i.e. a Web atual) e a Web de Dados. A primeira faz uso do padrão HTML para publicar dados, enquanto que na segunda os dados são publicados a partir do padrão RDF (ISOTANI; BITTENCOURT, 2015). A Web de Documentos é baseada em um conjunto de padrões, incluindo: um mecanismo de identificação global e único, os URIs (Uniform Resource Identifier); um mecanismo de acesso universal, o HTTP; e um formato padrão para representação de conteúdo, o HTML. De modo semelhante, a Web de Dados tem por base alguns padrões, como: o mesmo mecanismo de identificação e acesso universal usado na Web de Documentos (URIs e HTTP, respectivamente); um modelo padrão para representação de dados, o RDF; e uma linguagem de consulta para acesso aos dados, a linguagem SPARQL (ISOTANI; BITTENCOURT, 2015).

Os Princípios de Dados Conectados foram introduzidos por Tim Berners-Lee (2006) e resumem-se em quatro princípios básicos:

  1. Usar URIs como nome para recursos;
  2. Usar URIs HTTP para que as pessoas possam encontrar esses nomes;
  3. Quando uma URI for acessada, garantir que informações úteis possam ser obtidas por meio dessa URI, as quais devem estar representadas no formato RDF;
  4. Incluir links para outras URIs de forma que outros recursos possam ser descobertos.

O primeiro princípio defende o uso de URI para identificar não apenas documentos Web e conteúdos digitais, mas também objetos do mundo real e conceitos abstratos, os quais devem estar representados no formato RDF.

O segundo princípio defende o uso de URIs HTTP para identificar os objetos e os conceitos abstratos definidos pelo Princípio 1, possibilitando essas URIs serem dereferenciáveis sobre um protocolo HTTP. Neste contexto, dereferenciar é o processo de recuperar uma representação de um recurso identificado por uma URI, no qual um recurso pode ter várias representações como documentos HTML, RDF, XML, entre outros.

A fim de permitir que uma ampla gama de aplicações diferentes possa processar dados disponíveis na Web, é importante que exista um acordo sobre um formato padrão para disponibilização dos dados. O terceiro princípio de Dados Conectados defende o uso de RDF como modelo para a publicação de dados estruturados na Web (CYGANIAK; WOOD; LANTHALER, 2014). Com o RDF, é possível descrever significado sobre recursos, habilitando agentes de software a explorar os dados de forma automática, muitas vezes, agregando, interpretando ou mesclando dados.

O quarto princípio diz respeito ao uso de links para conectar não apenas os documentos da Web, mas qualquer tipo de recurso. Por exemplo, um link pode ser criado entre uma pessoa e um lugar, ou entre um local e uma empresa. Em contraste com a Web clássica onde os hyperlinks são em grande parte não “tipados”, hyperlinks que conectam os recursos em um contexto de Dados Conectados são capazes de descrever a relação entre eles. Hyperlinks no contexto de Dados Conectados são chamados de links RDF, a fim de distingui-los dos hyperlinks existentes na Web convencional (HEATH; BIZER, 2011).

É importante destacar que, atualmente, já existe um grande volume de dados abertos conectados disponível na Web. Como exemplo, destacam-se os conjuntos de dados abertos publicados pelo projeto LOD 8. Como mencionado anteriormente, os Dados Conectados contribuem para a geração de uma Web de Dados, sendo, portanto, a opção mais almejada para a publicação de dados na Web. Nesse contexto, o W3C Government Linked Data Working Group propôs um conjunto de Boas Práticas para publicação de Dados Conectados a fim de prover diretrizes para auxiliar o acesso e o reuso de dados governamentais abertos.9