le desordre du web // Page Rank

Dans la page intitulée "Pourquoi Google", Google SA explicite son but premier à savoir remédier au phénomène d'entropie:
"Google, la fin du chaos !
Google maîtrise l'information en proposant un nouveau type de recherche : non pas un annuaire à portée limitée ni une liste de résultats adjugés à la plus forte enchère, mais une solution ingénieuse et efficace qui organise le Web en tenant compte de sa structure vaste et démocratique."

L'entropie est une notion assez complexe. J'aime assez cependant l'article de Wikipedia (en français) :
"Intuitivement, l'entropie de Shannon peut être vue comme mesurant la quantité d'incertitude liée à un évènement aléatoire, ou plus précisément à sa distribution. Une autre manière de voir est de parler de la quantité d'information portée par le signal: l'information fournie par chaque nouvel évènement est fonction de l'incertitude sur cet évènement.[...]
Prenons un autre exemple: considérons un texte en français codé comme une chaîne de lettres, d'espaces et de ponctuations (notre signal est donc une chaîne de caractères). Comme la fréquence de certains caractères n'est pas très importante (ex : 'z'), tandis que d'autres sont très communs (ex : 'e'), la chaîne de caractères n'est pas si aléatoire que ça. D'un autre côté, tant qu'on ne peut pas prédire quel est le caractère suivant, d'une certaine manière, cette chaîne est aléatoire. L'entropie est une mesure de cet aléatoire suggérée par Shannon dans son article de 1948"
.
Réduire le phénomène d'entropie signifie en quelque sorte procéder à une désambiguisation de l'information, il faut pouvoir distinguer les informations, et pas chercher au sein d'une masse informe, ce qui accroît la notion d'incertitude.
L'incertitude est en effet un élément clef dans le processus de recherche d'information. Carol Kuhltau (KUHLTAU, 1991) dans son article "inside the search process" explique que le degré d'incertitude est un facteur déterminant l'issue de la recherche.
Il est donc tout à fait louable que les outils de recherche prennent en charge une partie du travail de désambiguisation, surtout face à la masse d'information rendue accessible via Internet.
Le Page Rank est un algoritme qui a le mérite de considérer l'architecture hypertextuelle du Web non seulement en suivant les liens mais aussi en considérant la récursivité de ses liens. C'est à dire que les références sont pondérées en fonction des liens sortants et entrants.

Schéma du principe du Page-Rank

La recursivité et la réciprocité sont des éléments qui peuvent se rapprocher de l'évaluation scientifique effectuée par les pairs : un article d'un scientifique est évalué par ses pairs. Parallèlement si une page réfère à d'autres pages et que ces dernières et d'autres réfèrent à la première, les liens sont plus "solides", "valables" et on y accorde donc plus de poids et de pertinence.

Pour en savoir plus :
le brevet du Page Rank
Brin, Sergey, Page, Lawrence. 1999. The Anatomy of large-scale hypertextual web search engine. Computer systems and ISDN Systems 30, 1-7, 107-117. [En ligne] The anatomy of large-scale hypertextual web search engine
Eisermann, Michaël. Comment fonctionne Google , cours MAT249, Mathématiques assistées par ordinateur [en ligne] dernière mise à jour 2 avril 2007.
Leclerc, Aurélien. 2006. Rapport VA sur "Page Rank : le référencement de sites" dans le cadre d'un travail de l'École Centrale d'Électronique.
Kuhlthau, Carol. 1991 Inside the search process: information seeking from the user’s perspective. Journal of the American Society for Information Science 42, 5, 361-371


Theme port sponsored by Duplika Web Hosting.
Accueil Back To Top