sexta-feira, 31 de agosto de 2007

A Matemática por traz do PageRank

Com a criação deliberada de páginas na rede (um bom exemplo são os BLOGS), sabemos que a INTERNET de hoje é formada por muitos milhões de páginas. Você já parou para se perguntar se todas estas milhões de páginas têm o mesmo "valor" ? Em outras palavras: será que existe páginas "mais importantes" do que outras? É bem razoável que existam sim páginas mais importantes do que outras! E isto é de extrema relevância para os buscadores de páginas na INTERNET (Yahoo, Google, Alta Vista, Live Search, dentre outros) que procuram em páginas da rede um certo conjunto de termos (palavras) pré-definidos(as) pelo usuário. O fato é que na maior parte dos casos, o buscador verifica "apenas" as primeiras páginas que surgem como resultado de uma certa busca, ignorando as seguintes - que podem ser milhões. Surgindo assim mais uma pergunta: como o buscador pode nos garantir que as primeiras páginas (que aparcem numa determinada busca) são de fato as mais importantes? Em outros termos: será que as respostas dada pelo buscador corresponde ao que de fato estávamos procurando?

Uma solução para o problema acima foi apresenta pelo Google, que foi atribuir um valor numérico, chamado de PageRank, a cada uma das páginas da Internet, de acordo com a sua "importância". Assim, as primeiras páginas a serem apresentadas ao usuário como resultado de uma determinada busca serão aquelas com maior valor de PageRank.

Agora você de está se perguntando o que isto tem a ver com Matemática!
Um trabalho (de divulgação matemática) realizado por um aluno da Universidade do Porto, sob orientação da Professora Maria Carvalho, responde, além de outras, as seguintes perguntas:
  • Como se define matematicamente o PageRank?
  • De que forma é possível calcular o PageRank?
  • Como podemos interpretar o conceito de Pageank em termos de probabilidades?
Neste trabalho, o aluno usa ferramentas do Cálculo Númerico, da Álgebra Linear (norma de matrizes), da Teoria de Probabilidades, e natuaralmente, um pouco de Modelagem Matemática, dentre outras ferramentas.

A fórmula original, dada pelos próprios fundadores do Google (Larry Page e Sergey Brin), para calcular o PageRank, é a seguinte:

onde

  • Pj é uma página qualquer
  • p é um parâmetro compreendido entre 0 e 1 (geralmente p = 0,85)
  • PR(Pi) denota o valor do PageRank da página Pi
  • j1, j2, ..., jk são os índices das páginas que possuem um link para a página Pi
  • PR(Pji) denota o valor do PageRank dessa página, para cada i = 1, ..., k
  • C(Pji) denota o número de links que partem dessa página, para cada i = 1, ..., k
Uma observação IMPORTANTE: Além do PageRank, existem outros critérios baseados no conteúdo das páginas (tais como a localização dos termos pesquisados), que também são tidos em conta sempre que é efetuada uma busca no Google. No entanto, o PageRank continua a ser um dos principais critérios de ordenação e um dos responsáveis pelo sucesso alcançado por este motor de busca em particular.

Vale a pena dar uma conferida neste trabalho. E para isto, basta consultar o endereço abaixo:

Endereço: http://www.atractor.pt/mat/pagerank/index.htm

Nenhum comentário: