
|
Analyse structurelle standard |
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
| |
Position du problèmeLe but de ce document est de comparer les coefficients "classiques"
[1] construits à partir de la matrice des distances avec
les coeffcients obtenus à partir de la "matrice de circulation"
(S) introduite dans le document structure d'un
hypertexte sous forme matricielle. Les exemples qui seront utilisés
sont repris du même document. Ils sont donnés dans les
figures 1 et 2. Les coefficients de structure classiques sont calculés à partir de la matrice des distances converties D = [dij] où dij est le plus court chemin entre les sommets i et j et un "grand" nombre, K (constante de conversion, souvent K vaut le nombre de noeuds), s'il n'y a pas de chemin du sommet i au sommet j. Ils seront rappelés sur la base d'un exemple. |
| exemple | K = N (nb de noeuds) | Min | Max | sd |
compacité |
| 1 | 5 | 20 | 100 | 67 | 33/80 (0.41) |
| 2 | 5 | 20 | 100 | 57 | 43/80 (0.54) |
Avec la matrice de
circulation
| exemple | K (nb de noeuds) | Smax | sc |
compacité |
| 1 | 5 | 5 | 2.81 | 0.562 |
| 2 | 5 | 5 | 4.57 | 0.914 |
Les informations sont comparables. A noter que dans le cas de l'hypertexte
donné par les référents et descripteurs, plusieurs
hypertextes différents peuvent conduire à un graphe
réduit identique. Il y a aussi plus d'une façon de réaliser
un hypertexte dont le graphe associé est un graphe complet.
Une autre alternative au coefficient de compacité standard [3] pourrait être obtenue en utilisant les valeurs propres.
Ce coefficient capture le degré de linéarité
de l'hypertexte. De façon classique, on définit pour
un noeud: le statut (nombre de liens en sortie), le contrestatut (nombre
de liens en entrée). Le prestige est alors la différence
(statut - contrestatut).
On définit pour un hypertexte: le prestige absolu (somme des
valeurs absolues du prestige de chaque noeud). On définit également
le "linear absolute prestige - LAP" qui est le prestige absolu d'un
hypertexte linénaire avec N noeuds)
La stratification (stratum) est le rapport du prestige absolu
au LAP.
On peut suivre le même algorithme pour la matrice de circulation, en sachant également que plusieurs hypertextes peuvent conduire au même graphe associé. De même, il n'y a pas qu'un seul hypertexte "linéaire" de référence.
On prend dans ce cas pour l'hypertexte linéaire la
matrice R valant 1 dans la "diagonale". Quant-à D, il s'agit de
la
matrice avec des 1 dans la sous-diagonale.
Un hypertexte linéaire a donc pour graphe:

Calcul du LAP: cas standard,
N = 5
La matrice des distances est:
LAP = (10-0) + (6-1) + (3-3) +
abs(1-6) + abs(0-10) = 30
Calcul du LAP, matrice de circulation N=5
Les matrices R et D sont:

La matrice pondérée du graphe G est la matrice
de dimension 5 x 5
nulle avec des 1 dans la sur-diagonales. Cela donne pour S:

LAP = (15/16-0) + (7/8-1/2) + (3/4-3/4) + abs(1/2-7/8) +
abs(0-15/16)
LAP = 15/8 + 3/4 = 21/8
Le calcul pour les exemples 1 et 2 sont les suivants:
Cas standard
| exemple | N (nb de noeuds) | LAP | prestige abs. | stratum |
| 1 | 5 | 30 | 18 |
0.6 |
| 2 | 5 | 30 | 24 | 0.8 |
Avec la matrice de
circulation
| exemple | N (nb de noeuds) | LAP | prestige abs. |
stratum |
| 1 | 5 | 21/8 | 4.1 | 0.64 |
| 2 | 5 | 21/8 | 3.5 |
0.75 |
Dans le cas standard, un hypertexte linéaire possède un
"stratum" de 1. Cette valeur est maximale. S'il est possible
d'atteindre n'importe quel noeud à partir de n'importe quel
noeud, le stratum est nulle.
Dans notre cas, la valeur du LAP est minimum. Ce qui conduit à définir le stratum comme LAP / prestige absolu.
En définitive, des indices métriques de centralité, compacités et stratum peuvent être obtenus à partir de la matrice de circulation. Ils semblent donner, à quelques nuances près, des informations comparables à celles obtenues par les coefficients calculés classiquement à partir de la matrice des distances. Cette hypothèse resterait à tester avec d'autres exemples. Notamment pour explorer les "nuances" constatées et pour explorer l'effet de la structure sous-jacente (descripteur - référent) sur ces coefficients.
1) Botafogo, R.A., Revlin, E. & Schneiderman, B. (1992). Structural Analysis of Hypertexts: Identifying hierarchies and Useful Metrics. ACM Transactions on Information Sytems, 10 (2), 142-180.
2) La matrice de circulation est une matrice "d'anti-distance". Pour des raisons de signification ultérieure, on ne considère pas la diagonale. D'autres façon de faire sont possibles, notamment avec l'utilisation de la diagonale et l'ajout d'une pondération (somme des coefficients).
3) De fait on utilise S-diag(S). Bref rappel de la signification de S: le coefficient sij est la probabilité de passer de l'unité i à l'unité j avec la convention suivante: on part de l'unité i, on choisit un référent (équiprobabilité). Si ce référent peut conduire à plusieurs unités, on en choisit une (équiprobabilité). De là on décide ou pas de repartir avec une probabilité de 1/2. Avec cette définition, on peut s'étonner que la somme d'une ligne de S-1 ne soit pas égale à 1. Cela est dû au fait que les choix sont liés aux concepts servant de lien (le choix est fait en tenant compte de l'ensemble des unités où le concept est référent et/ou descripteur). Ainsi les décisions prises à chaque étape ne sont pas totalement indépendantes. Dans le deuxième exemple chaque lien est lié à un concept particulier. Dans ce cas, il y a indépendance des décisions et la somme des lignes vérifie la propriété d'être égale à 1.
Par ailleurs, deux hypertextes qui présenteraient au niveau du graphe associé exactement les mêmes liens, peuvent conduire à des matrices de circulation différentes. Celles-ci sont dépendantes des concepts qui ont donné lieu aux liens.
![]()
(c) A. Favre & L.-O. Pochon, IRDP, 2005