Un simulateur pour la création d'hypertextes

Introduction

Ce document propose un processus de création d'hypertexte (dénommé par degré d'attirance ou par agrégation). Les manipulations sont réalisées à l'aide de fonctions matlab à disposition dans l'archive simul-htxt.zip (ces procédures et d'autres ont été réécrites pour R, elles sont à disposition sur demande). Ce procédé peut rendre compte en partie de la façon dont le "web" se construit.

Le simulateur

Il permet de créer des unités d'information, chacune caractérisée par:

  • un numéro d'ordre;
  • son degré de 'fitness' qui représente une certaine qualité intrinsèque de l'unité. Le degré de fitness est un nombre aléatoire compris entre 0 et 1;
  • le nombre de liens émis depuis cette unité d'information;
  • son type qui donne la nature de l'unité d'information (domaine traité).
Le nombre de liens et le type sont attribués au hasard selon des distributions décrites dans les deux tables:
  • dis_lnk: donne la distribution du nombre de links émis par une nouvelle unité d'information (distribution normale dans l'exemple)
  • dis_typ: donne la distribution des types (distribution croissante dans l'exemple)

La matrice uis contient l'ensemble des unités d'information (une par ligne), les colonnes donnant le numéro, le degré de fitness, le nombre de liens et le type.

Les liens sont fabriqués selon un coefficient d'attirance qui dépend des types respectifs de la source et de la cible, du degré de fitness de la cible et du nombre de liens de la cible.

r est la matrice d'adjacence. rij = 1 signifie qu'il y a un lien de l'unité d'information i vers l'unité d'information j.

Exemple

La commande load simul initialise les variables (y compris 2 unités d'information).

Le commande agreg(9998,100) ajoute 9998 unités d'information, puis elle "choisit" 100 unités d'information à partir desquelles des liens sont établis selon le même algorithme que précédemment.

La figure 1 représente la distribution des liens sur une unité d'information (Ui). La figure 2 représente la distribution des liens à partir des unités d'information.

fig 1. Distribution du nombre de liens sur les Ui

fig 2. Distribution du nombre de liens à partir des UI

La première distribution suit une loi de courbe en L. Il met en évidence les autorités. Il resterait à verifier que c'est bien une loi puissance (de type x-n n fixe) qui, selon Barabasi (2002), caractérise la répartition des liens sur le web (il serait également utile de voir le degré de concordance entre ce type de distribution et la topologie "décentralisée" ou "scale-free").

Par contre, la distribution des liens "sortant" (référents) suit une loi différente qui pourrait être de type 2, ce qui pourrait être directement lié au processus de construction au modèle. Toutefois la "queue" de la distribution pourrait aussi être d'ordre x-n.

Quelques questions

Les quelques questions qui concernent les graphes construits selon ce processus sont les suivantes:

  • Vérification ou détermination des distributions théoriques (des hypothèses à ce propos figurent dans le texte).
  • Structure du graphe (détermination des autorités et hubs), découpage en composante, structure papillon.
  • Part à attribuer au coeffcicient de "fitness" et au type dans le résultat.
  • Influence du nombre d'itérations.
  • Comparaison avec d'autres procédés de construction.

Bibliographie

Barabasi, A.-L. (2002). Linked, The New Science of Networks. Cambridge, MA : Perseus Publishing.

(c) A. Favre, VisioSoft, S.A. & L.-O. Pochon, IRDP, 2003