Um pouquinho de Web Semântica

Está se tornando quase obrigatório pra mim falar um pouco do tema, uma vez que estou completamente envolvido por ele ultimamente. Tenho escrito alguns textos para a empresa em que trabalho, e ainda alguns outros para apresentação de projetos de pesquisa, então pretendo escrever uma espécie de série sobre temas da Web 3.0. Não sei se vou conseguir (minha série de reviews sobre o Software público foi um fracasso), mas vou  começar agora e ver onde vai dar.

Introdução

Se você fizer uma busca aqui no blog vai ver que escrevi muitos textos sobre a Web 2.0, muito mais motivado pelas perguntas que me faziam do que pelo meu real interesse no assunto. Contudo, era impossível fugir do assunto já que trabalho e trabalhei muito tempo com o desenvolvimento de redes sociais. Comecemos a definição por aí.

O que víamos na Web 2.0 era uma mudança muito mais comportamental do que técnica: saíamos da era da publicação de conteúdo estático para a produção por parte do usuário. As ferramentas que surgiram então foram muito mais para acompanhar essa tendência e dar poder aos leigos em informática. Um bom exemplo é o mesmo WordPress que uso aqui no blog, em exemplo de ferramenta Web 2.0.

O que se passou a partir daí é, basicamente, o óbvio: muito mais conteúdo passou a ser produzido. Chegamos a um ponto em que a simples navegação na Internet se torna inviável sem a utilização de um mecanismo de busca como o Google ou, para os mais avançados, a possibilidade de guardarmos as informações que consideramos interessantes através de ferramentas como o Diigo. Há simplesmente coisa demais por aí, certamente mais do que podemos nos lembrar para buscar quando precisamos.

Acontece que somente a utilização de algoritmos como o pagerank do Google, que mapeia endereços conforme há links para ele e os organiza em termos, não são mais suficientes. Estar na primeira página da busca por um determinado termo no Google se tornou um negócio muito importante, e já existem empresas especializadas em aumentar sua posição, prática conhecida como Search Engine Optimization (SEO).

Contudo, se eu trabalho com conteúdo e possuo um grande portal ou rede social, por exemplo, eu não imagino que os usuários vão ao Google todas as vezes que quiserem encontrar algum conteúdo. Eu preciso fornecer maneiras de que uma pessoa encontre mais informações relacionadas aos seus interesses direto onde ele está lendo a informação, de forma que ele continue navegando em temas relacionados sem necessariamente fazer uma nova busca. Essa é uma das aplicações mais comuns da Web Semântica: relacionar conteúdos sobre o mesmo tema em diferentes plataformas.

Tomando o caso acima como exemplo, qual seria uma maneira de encontrar assuntos relacionados em um sistema de Internet? Se o sistema fosse um banco de dados relacional, eu poderia relacionar as informações através de categorias, por exemplo, como você pode ver aqui no blog ao clicar em uma das categorias. Essa é a prática conhecida como taxonomia, ou pelo menos um dos tipos possíveis de taxonomia. Contudo, essa prática tem um problema muito sério: nem sempre é possível armazenar todas as informações na mesma base de dados. Portais grandes como globo.com e ig.com.br possuem dezenas, talvez centenas de aplicações diferentes tratando sobre o mesmo tema. Em época de olimpíada é possível o blogueiro de televisão falar sobre a audiência dos jogos, enquanto o responsável pela área esportiva pode estar mais preocupado com os resultados esportivos. Dificilmente todos eles estão dentro da mesma base de dados. Como fazer então para relacionar a informação? Aí entra a Web Semântica.

O que é Web 3.0?

A Web Semântica, ou Web 3.0, ou Web dos Dados, trata da publicação não somente do conteúdo, mas da organização da informação e publicação em um formato aberto acessível tanto por dispositivos quanto por máquinas. Nesse contexto, precisamos utilizar um pouco de língua portuguesa para entender o conceito. Imaginemos a seguinte sentença:

O Brasil conquistou duas medalhas de ouro nas olimpíadas de Londres 2012.

Na Web Semântica precisamos organizar as informações em triplas, encontrando Sujeito, Predicado Objeto. Obviamente há várias maneiras de classificar a informação da maneira proposta, mas para o exemplo funcionar vamos nos preocupar com a quantidade de medalhas do Brasil em Londres 2012.

Medalhas de ouro do Brasil em Londres 2012

Grafo representando o número de medalhas do Brasil em Londres 2012

No exemplo acima temos a seguinte organização:

  • Sujeito: Medalhas do Brasil em londres 2012
  • Predicado: Medalhas de ouro
  • Objeto: 3

Imaginemos que no mesmo site alguém dê uma nota sobre a quantidade de medalhas do Brasil em Londres 2012. Eu poderia construir um outro grafo de triplas contendo a nota:

Nota para o número de medalhas

Nota de alguém para o número de medalhas em Londres

Agora é possível encontrar informações em diferentes contextos relacionadas às medalhas do Brasil em Londres 2012. Qual a aplicação disso na prática? Aí está a riqueza, e vou abordar em outro post, mas vou mostrar um exemplo bem simples:

Recorte sobre Carolina dieckman

Recorte do site ego.globo.com

Preste atenção no lado direito desse recorte do site do Ego: tudo sobre Carolina Dieckmann. É um exemplo simples, mas fazendo uma consulta pelo sujeito Carolina Dieckmann é possível encontrar informações sobre ela em vários portais, desde que as informações estejam disponíveis no formato da Web Semântica.

A maior parte das pessoas tem ideias iguais ou parecidas com essa, mas certamente ainda são necessárias melhores aplicações, e aí é que estão as oportunidades. Mas vou deixar esse tema pra outro dia porque o post já está grande demais.

Fica um desafio para quem quiser treinar: que tal construir um aplicativo que pegue as informações aqui do blog? Os dados no formato RDF estão disponíveis através do feed (sim, feed RSS é um formato da Web Semântica): http://www.eduardosan.com/feed Pode usar à vontade, pois todo o conteúdo está sob uma licença Creative Commons.

Créditos

Imagens gerados pelo RDF validator do W3C: http://www.w3.org/RDF/Validator/

Recorte do site Ego no dia 13/08/2012 às 14h00: http://ego.globo.com/famosos/noticia/2012/08/carolina-dieckmann-usa-cilios-enormes-para-clipe-das-olimpiadas.html

0saves


Se você gostou desse post, deixe um comentário ou inscreva-se no feed RSS para ter todas os posts enviados para o seu agregador preferido.

Author Description

Eduardo Santos

Mestre em Computação Aplicada pela Universidade de Brasília (UnB), Tecnologista na Agência Espacial Brasileira, professor do Uniceub e cientista de dados (data scientist).

There are 3 comments. Add yours

  1. 13th agosto 2012 | Eduardo says:
    Oi xará, gostei da introdução e quero acompanhar o seu desenvolvimento. Até que enfim achei um trabalho sobre WEB 3.0 que não é meramente copiar/colar. Você conseguiu ser original e isto é muito significativo. Gostaria que você acessasse: http://www.redepeabirus.com.br/redes/form/comunidade?id=1283 onde eu venho tratando do assunto. Também interessa algum trabalho conjunto. O que você me diz? Grande abraço Eduardo Lopes
  2. 14th agosto 2012 | Eduardo Santos says:
    Olá Eduardo, Obrigado pela visita e pelo comentário. Contate-me em PVT sobre trabalhos conjuntos. Abraços
  3. 14th agosto 2012 | Eduardo says:
    Olá Eduardo, em primeiro lugar não consegui adivinhar onde vc mora como referência aquele mar. Mas se vc leu algum tópico de minha autoria deve ter visto que eu desenvolvi o SGR - Sistema Geral de Referência de forte base taxonômica e ontológica. É um esquema polivalente e que pretendo aplicaar em muitas circunstâncias. Procuro alguém versado e que tenha interesse no assunto para completar o ferramental. Posso dizer que o algorítimo está 100% resolvido. Falta a mão do programador. laro o cérebro em primeiro lugar. Residop atualmente em S. Paulo mas estou prestes a mudar para o Paraná. Afinal qual é a sua praia? Abraços Eduardo

Deixe uma resposta

Twitter

Assinar blog por e-mail

Digite seu endereço de e-mail para assinar este blog e receber notificações de novas publicações por e-mail.

Junte-se a 504 outros assinantes

Alguns direitos reservados

Licença Creative Commons
Este trabalho está licenciado com uma Licença Creative Commons - Atribuição-NãoComercial 4.0 Internacional.